[Risolto] scaricare un website da visionare offline

yum_yoshi · 10 Maggio 2020, 12:20pm

Ciao a tutti ,

per lavoro avrei necessità di scaricare un sito e tutta la documentazione all’interno per potere accedere senza l’uso della rete.
Ho provato sia con wget che con httrack , ma mi scarica sempre solo la prima pagina ,che ha i dei link ,ma questi sono solo funzionati online ; fatto vari tentativi ,seguendo varie guide e mettendo le tutte opzioni che servono ,esempio

$ wget -mkEpnp

qualche suggerimento ?
grazie
ciao

bebo_sudo · 10 Maggio 2020, 12:20pm

Ciao,
io ho usato felicemente questo:

$ wget --mirror --convert-links --html-extension -progress --timestamping -o log_$(date -u +"%Y-%m-%dT%H-%M-%SZ") https://sitoweb/

Il -o non e’ necessario, ma puo’ essere utile come storico.
Se il sito che stai mirrorando e’ pubblico e “importante”, potrebbero segarti la connessione bannando il tuo IP se ti vedono fare troppe connessioni in sequenza; in tal caso aggiungi un mirror di 1 secondo con wait, PRIMA di iniziare a mirrorare:

--wait 1

oppure un:

--random-wait

Vedi te, e vedi il man di wget prima.

Se metti questo comando dentro uno screen (ad es su un server) puoi lasciarlo andare in continuo, “staccare” il terminale e riattaccarti poi in seguito.

Ispirato da:
https://alvinalexander.com/linux-unix/how-to-make-offline-mirror-copy-website-with-wget

yum_yoshi · 10 Maggio 2020, 12:20pm

Grazie Bebo ,

ho provato ,ma mi scarica sempre solo la prima pagina. non è un sito pubblico , a wget aggiungo --user e --password.

grazie
ciao

bebo_sudo · 10 Maggio 2020, 12:20pm

Ovviamente questo funziona se nella prima pagina ci sono dei link da iniziare a navigare verso tutte le altre pagine. Se gli dai una pagina da cui non si puo’ “uscire”, non ti potra’ trovare niente.
Ad es se provi a scaricare tutto il sito icanhazip.com, ti tornera’ solo una pagina, perche’ non ci sono link che puntino ad altre pagine (che non penso neanche ci siano in realta’).

Se questo e’ il caso, potresti provare a dargli in pasto un’altra pagina secondaria, ma in cui ci sono altri link da cui completare la “mappa” del sito.

yum_yoshi · 10 Maggio 2020, 12:20pm

Nella pagina che scarica ci sono i link e sono attivi ,solo se ho la connessione , senza connessione mi da la pagina bianca; veramente alcuni link funzionano ma è la cache del browser .
io il tutto lo metterei su una penna e poi usato su un pc che non si può collegare alla rete.
Ho provato a mettere l’indirizzo di un’altra pagina , stesso discorso .
scarica in 1" , è logico che non può essere tutta la documentazione , che credo potrebbe essere dai 4 a 8 gb.

grazie
ciao

bebo_sudo · 10 Maggio 2020, 12:20pm

Ho trovato un po’ di gente con un simile problema:
https://lmgtfy.com/?q=wget+mirror+not+following+links&pp=1&s=d

Probabilmente dovrai spiegare a wget di “disobbedire”/ignorare le varie istruzioni contenute nei file robots, fatte apposta per evitare che google&co indicizzino pagine “private”:

-e robots=off -U mozilla

ppure specificagli che deve seguire link anche ad altri siti (magari e’ tutto un po’ disordinato e ci sono link interni alla versione www. mentre tu gli hai detto di partire dal sito senza www):

--span-hosts --domains=www.example.com,ftp.example.com example.com/pagina/1/

Occhio che -H/–span-hosts e’ necessaria quando specifichi dei domini aggiuntivi da cui scaricare. Questo serve per limitare i domini da cui scaricare ed evitare di tirare giu’ il mondo.

Alcune references:
https://stackoverflow.com/questions/54770985/wget-recursive-mirror-option-not-following-links
https://stackoverflow.com/questions/20030148/wget-doesnt-download-recursively-after-following-a-redirect
https://stackoverflow.com/questions/11124292/why-does-wget-only-download-the-index-html-for-some-websites

yum_yoshi · 10 Maggio 2020, 12:20pm

Bravo bebo_sudo ,
l’opzione vincente è -e robots=off -U mozilla
avevo già messo : -U Mozilla
ma non aveva fatto effetto.

grazie
ciao