Я пытаюсь очистить веб-страницы в Ruby script, над которым я работаю. Цель проекта - показать, какие ETF и фондовые паевые фонды наиболее совместимы с философией инвестирования в ценности.
Некоторые примеры страниц, которые я хотел бы очистить, следующие:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
Какие инструменты для веб-поиска вы рекомендуете для Ruby и почему? Имейте в виду, что есть тысячи фондовых фондов, поэтому любой инструмент, который я использую, должен быть достаточно быстрым.
Я новичок в Ruby, но у меня есть опыт использования lxml для очистки веб-страниц в Python (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py). Как только страницы на 5000 + запасах будут загружены, lxml может очистить их все всего за несколько минут. (Я помню, как пытался BeautifulSoup, но отклонил его, потому что он был слишком медленным.)