Как использовать wget
и получить все файлы с веб-сайта?
Мне нужны все файлы, кроме файлов веб-страниц, таких как HTML, PHP, ASP и т.д.
Как использовать wget
и получить все файлы с веб-сайта?
Мне нужны все файлы, кроме файлов веб-страниц, таких как HTML, PHP, ASP и т.д.
Чтобы фильтровать определенные расширения файлов:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
Или, если вы предпочитаете длинные имена опций:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
Это будет отражать сайт, но файлы без расширения jpg
или pdf
будут автоматически удалены.
Загрузите для меня весь веб-сайт:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
wget -m -p -E -k -K -np http://site/path/
справочная страница расскажет вам, что делают эти параметры.
wget
будет следовать только за ссылками, если нет ссылки на файл с индексной страницы, тогда wget
не узнает о его существовании и, следовательно, не загрузит его. то есть. это помогает, если все файлы связаны с веб-страницами или индексами каталогов.
Я пытался загрузить zip файлы, связанные с страницами темы Omeka - довольно схожая задача. Это сработало для меня:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
: принимать только файлы zip-r
: recurse-l 1
: один уровень глубины (т.е. только файлы, напрямую связанные с этой страницей).-nd
: не создавайте структуру каталогов, просто загружайте все файлы в этот каталог.Все ответы с параметрами -k
, -k
, -E
и т.д., вероятно, не совсем поняли вопрос, как те, что переписывают HTML-страницы для создания локальной структуры, переименования файлов .php
и т.д., Не имеет значения.
Чтобы буквально получить все файлы, кроме .html
и т.д.:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
Вы можете попробовать:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
Также вы можете добавить:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
принять конкретные расширения или отклонить только определенные расширения:
-R html,htm,asp,php
или для исключения определенных областей:
-X "search*,forum*"
Если файлы игнорируются для роботов (например, поисковых систем), вы также должны добавить: -e robots=off
Попробуйте это. Это всегда работает для меня
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
В системах Windows, чтобы получить wget, вы можете
wget -m -A * -pk -e robots=off www.mysite.com/
это будет загружать все типы файлов локально и указывать на них из html файла и он будет игнорировать файл robots