Wget Зеркало только HTML

У меня есть небольшой веб-сайт, который я пытаюсь зеркально отразить на своей локальной машине только с html файлом, без изображений, файлов с прикрепленным изображением... pdf,..etc.

Я никогда раньше не отражал веб-сайт и думаю, что было бы неплохо задать вопрос, прежде чем делать что-либо катастрофическое.

Это команда, которую я хочу запустить, и задаюсь вопросом, нужно ли добавить что-нибудь еще.

wget --mirror <url> 

Благодарю!

Ответ 1

-R и -A используются для отклонения или принятия определенных типов файлов.

Также рассмотрим пропускную способность, используемую для загрузки всего веб-сайта. Возможно, вы захотите добавить параметр --Random-wait.

Если вы хотите пропустить все изображения и pdf файлы, ваша команда будет выглядеть примерно так:

wget --mirror --random-wait -R gif,jpg,pdf <url>

Примечание: зеркальное отображение веб-сайта может противоречить политике, поэтому я предлагаю вам сначала проверить.

Источники:

Ответ 2

Есть также wget-патчи, которые добавляют параметры фильтрации mimetypes...