Python/Java script для загрузки всех файлов .pdf с веб-сайта

Мне было интересно, можно ли написать script, который мог бы программно перемещаться по всей веб-странице и автоматически загружать все ссылки файла .pdf. Прежде чем я начну предпринимать попытки самостоятельно, я хочу знать, возможно ли это.

С уважением

Ответ 1

Да, это возможно. для загрузки файлов PDF вам даже не нужно использовать Beautiful Soup или Scrapy.

Загрузка с python очень проста Создайте список всех ссылок linkpdf и загрузите их

Ссылка на создание списка ссылок: http://www.pythonforbeginners.com/code/regular-expression-re-findall

Если вам нужно просканировать несколько связанных страниц, возможно, одна из фреймворков может помочь Если вы готовы создать свой собственный искатель здесь, отличный учебник, который также хорошо подходит для Python. https://www.udacity.com/course/viewer#!/c-cs101

Ответ 2

Да, это возможно.

В питоне это просто; urllib поможет вам скачивать файлы из сети. Например:

import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")

Теперь вам нужно создать скрипт, который будет искать ссылки, заканчивающиеся на .pdf.

Пример HTML-страницы: здесь ссылка

Вам необходимо скачать html-страницу и использовать htmlparser или использовать регулярное выражение.

Ответ 3

Да, это возможно. Это называется веб-соскабливанием. Для Python существуют различные пакеты, которые помогут в этом, включая scrapy, beautifulsoup, mechanize, а также многие другие.

Ответ 4

Используйте urllib для загрузки файлов. Например:

import urllib

urllib.urlretrieve("http://...","file_name.pdf")

Пример script, чтобы найти ссылки, заканчивающиеся на .pdf: https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/DownloadSamplePapers.py

Ответ 5

Не могу оставить комментарий из-за отсутствия репутации.

Просто хотел сказать, что в Python 3 функция urlretrieve находится в модуле request urllib: https://docs.python.org/3.7/library/urllib.html.