Как скачать весь интернет

По ходу своей профессиональной деятельности начал довольно плотно работать в Linux’е. И вот сегодня мне пришлось скачать себе сайт. Целиком. А потому-что там много файлов и непонятно которые пригодятся, а которые нет))) Как это сделать? Прошу под кат.

Все, что будет дальше- это по сути кописпаста с qna.habr.com Но чтобы это не потерять и не отвлекаться на другие ответы привожу способ выкачки сайта через стандартный wget.

Для одного сайта:

wget -m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" PASTE_HERE_A_LINK_TO_THE_SITE_YOU_WANT_TO_DOWNLOAD

-m (—mirror) — Включает рекурсию (чуть ли не до бесконечного погружения) и сохраняет списки каталогов
-l (—level) — Указывает на максимальную глубину погружения рекурсии
-e (—execute) — Выполнение команды. В данном примере — исключить роботов
-p (—page-requisites) — Эта опция заставляет Wget загружать все файлы, необходимые для правильного отображения HTML-страницы
-k (—convert-links) — После окончания загрузки (скачивания) все ссылки будут преобразованы, чтобы быть пригодными для локальной работы
-E (—adjust-extension) — Если файл типа application/xhtml + xml и URL-адрес не заканчивается регуляркой ‘\.[Hh][Tt][Mm][Ll]?’ — в названии локального файла будет дописываться .html
-U (—user-agent) — Я думаю тут объяснять особо не нужно 🙂
—reject-regex — Исключает скачивание файлов, в которых есть часть их значения reject-regex. Почему я это добавил? Потому что я ненавижу скачивать страницы на wordpress. Это долго, очень много файлов и я не люблю wordpress. Да. Этот сайт на WP))))
—no-check-certificate — Не производится проверка сертификата сервера с доступными центрами сертификации

Для списка сайтов:

wget -m -l 10 -e robots=off -p -k -E --reject-regex "wp" --no-check-certificate -U="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" -i ~/Desktop/sites.txt -P ~/Desktop/sites/

-i (—input-file) — Этой опцией Вы указываете, где располагается список сайтов/страниц которые необходимо скачать
-P (—directory-prefix) — Этой опцией Вы указываете, куда сохранять Ваши сохранённые сайты/страницы/файлы

Всю информацию на английском языке можно прочитать в мануале на wget

Добавить комментарий Отменить ответ