Я испытываю недоумение писать свои собственные, но на самом деле у меня нет достаточно времени. Я видел список Wikipedia сканеры с открытым исходным кодом, но я бы предпочел что-то написанное на Python. Я понимаю, что я мог бы, вероятно, просто использовать один из инструментов на странице Википедии и обернуть его в Python. Я мог бы это сделать - если у кого-нибудь есть какие-либо советы по поводу любого из этих инструментов, я могу рассказать о них. Я использовал Heritrix через веб-интерфейс, и я нашел его довольно громоздким. Я определенно не буду использовать API-интерфейс браузера для моего предстоящего проекта.
Спасибо заранее. Кроме того, это мой первый вопрос SO!