Я пытаюсь написать свой первый Python script, и с большим количеством Googling, я думаю, что я только что закончил. Тем не менее, мне понадобится помощь, чтобы добраться до финиша.
Мне нужно написать script, который записывается на сайт с поддержкой cookie, очищает связку ссылок, а затем запускает несколько процессов для загрузки файлов. У меня есть программа, работающая в однопоточной, поэтому я знаю, что код работает. Но когда я попытался создать пул загрузчиков, я столкнулся с стеной.
#manager.py
import Fetch # the module name where worker lives
from multiprocessing import pool
def FetchReports(links,Username,Password,VendorID):
pool = multiprocessing.Pool(processes=4, initializer=Fetch._ProcessStart, initargs=(SiteBase,DataPath,Username,Password,VendorID,))
pool.map(Fetch.DownloadJob,links)
pool.close()
pool.join()
#worker.py
import mechanize
import atexit
def _ProcessStart(_SiteBase,_DataPath,User,Password,VendorID):
Login(User,Password)
global SiteBase
SiteBase = _SiteBase
global DataPath
DataPath = _DataPath
atexit.register(Logout)
def DownloadJob(link):
mechanize.urlretrieve(mechanize.urljoin(SiteBase, link),filename=DataPath+'\\'+filename,data=data)
return True
В этой версии код не работает, потому что куки файлы не были переданы работнику за использование urlretrieve. Нет проблем, я смог использовать класс mechanize.cookiejar для сохранения файлов cookie в менеджере и передать их работнику.
#worker.py
import mechanize
import atexit
from multiprocessing import current_process
def _ProcessStart(_SiteBase,_DataPath,User,Password,VendorID):
global cookies
cookies = mechanize.LWPCookieJar()
opener = mechanize.build_opener(mechanize.HTTPCookieProcessor(cookies))
Login(User,Password,opener) # note I pass the opener to Login so it can catch the cookies.
global SiteBase
SiteBase = _SiteBase
global DataPath
DataPath = _DataPath
cookies.save(DataPath+'\\'+current_process().name+'cookies.txt',True,True)
atexit.register(Logout)
def DownloadJob(link):
cj = mechanize.LWPCookieJar()
cj.revert(filename=DataPath+'\\'+current_process().name+'cookies.txt', ignore_discard=True, ignore_expires=True)
opener = mechanize.build_opener(mechanize.HTTPCookieProcessor(cj))
file = open(DataPath+'\\'+filename, "wb")
file.write(opener.open(mechanize.urljoin(SiteBase, link)).read())
file.close
Но это не так, потому что openener (я думаю) хочет переместить двоичный файл обратно в менеджер для обработки, и я получаю сообщение об ошибке "неспособность рассортировать объект", ссылаясь на веб-страницу, которую он пытается прочитать в файле.
Очевидное решение состоит в том, чтобы прочитать файлы cookie из кука файла cookie и вручную добавить их в заголовок при выполнении запроса urlretrieve, но я стараюсь избегать этого, и именно поэтому я ловим предложения.