Я извлекаю комментарии пользователей с нескольких веб-сайтов (например, reddit.com), а Youtube - еще один сочный источник информации для меня. Мой существующий скребок записан в R:
# x is the url
html = getURL(x)
doc = htmlParse(html, asText=TRUE)
txt = xpathSApply(doc,
//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]",xmlValue)
Это не работает с данными Youtube, на самом деле, если вы посмотрите, например, на источник видео Youtube, например , вы увидите, что комментарии не отображаются в источнике.
Есть ли у кого-нибудь предложения по извлечению данных в таких обстоятельствах?
Большое спасибо!