Я использую этот script для загрузки изображений с одной и той же страницы html. Но если изображения достаточно большие, этот script не загружается должным образом - все изображения 1,15 КБ и не отображаются. Как я могу это исправить? что не так?
Script не скачивает большие изображения
Ответ 1
Если вы загружаете и проверяете HTML в http://tema.ru/travel/new-york.2011.11/, вы видите такие вещи, как
<img src="IMG_5072.jpg" alt="" width="1000" height="667" border="1" />
Итак, эта страница использует относительные ссылки.
Линия
parsed[2] = image["src"]
изменяет parsed
из
['http', 'tema.ru', '/travel/new-york.2011.11/', '', '', '']
к
['http', 'tema.ru', 'IMG_5072.jpg', '', '', '']
а затем формирует новый url с
url = urlparse.urlunparse(parsed)
который устанавливает url
в http://tema.ru/IMG_5072.jpg
, который не существует.
Правильный URL-адрес http://tema.ru/travel/new-york.2011.11/IMG_5072.jpg
.
Мы можем сформировать этот url с
url = urlparse.urljoin(base_url,image['src'])
попробуйте
"""
http://stackoverflow.com/a/258511/190597
Author: Ryan Ginstrom
dumpimages.py
Downloads all the images on the supplied URL, and saves them to the
specified output file ("/tmp" by default)
Usage:
python dumpimages.py http://example.com/ [output]
"""
import os
import sys
import urllib
import urllib2
import urlparse
import argparse
import BeautifulSoup
def main(base_url, out_folder):
"""Downloads all the images at 'url' to out_folder"""
soup = BeautifulSoup.BeautifulSoup(urllib2.urlopen(base_url))
for image in soup.findAll("img"):
src = image['src']
print "Image: {s}".format(s=src)
_, filename = os.path.split(urlparse.urlsplit(src).path)
outpath = os.path.join(out_folder, filename)
url = urlparse.urljoin(base_url, src)
urllib.urlretrieve(url, outpath)
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument('url')
parser.add_argument('out_folder', nargs = '?', default = '/tmp')
args = parser.parse_args()
main(args.url, args.out_folder)