Веб-страницы соскабливают драгоценные камни/инструменты, доступные в Ruby

Я пытаюсь очистить веб-страницы в Ruby script, над которым я работаю. Цель проекта - показать, какие ETF и фондовые паевые фонды наиболее совместимы с философией инвестирования в ценности.

Некоторые примеры страниц, которые я хотел бы очистить, следующие:

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V

Какие инструменты для веб-поиска вы рекомендуете для Ruby и почему? Имейте в виду, что есть тысячи фондовых фондов, поэтому любой инструмент, который я использую, должен быть достаточно быстрым.

Я новичок в Ruby, но у меня есть опыт использования lxml для очистки веб-страниц в Python (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py). Как только страницы на 5000 + запасах будут загружены, lxml может очистить их все всего за несколько минут. (Я помню, как пытался BeautifulSoup, но отклонил его, потому что он был слишком медленным.)

Ответ 1

В Ruby доступно столько scraping gems, что и Hpricot, Nokogiri и так много. Я рекомендую Nokogiri очистить static web pages. Если вы очищаете dynamic web pages (означает, что включает нажатие кнопки, отправьте форму и т.д.). Я рекомендую Mechanize, который внутренне использует Nokogiri.