Я пытаюсь разработать простой скребок. Я хочу извлечь текст без кода HTML. Фактически, я достигаю этой цели, но я видел, что на некоторых страницах, где загружен JavaScript, я не получил хороших результатов.
Например, если какой-то код JavaScript добавляет некоторый текст, я не вижу его, потому что, когда я вызываю
response = urllib2.urlopen(request)
Я получаю исходный текст без добавленного (потому что JavaScript выполняется на клиенте).
Итак, я ищу некоторые идеи для решения этой проблемы.