Я пытаюсь использовать YQL для извлечения части HTML из серии веб-страниц. Сами страницы имеют немного другую структуру (так что Yahoo Pipe "Fetch Page" с ее функцией "Сокращение содержимого" работает не очень хорошо), но фрагмент, который меня интересует, всегда имеет тот же атрибут class
.
Если у меня есть HTML-страница, вот так:
<html>
<body>
<div class="foo">
<p>Wolf</p>
<ul>
<li>Dog</li>
<li>Cat</li>
</ul>
</div>
</body>
</html>
и используйте выражение YQL следующим образом:
SELECT * FROM html
WHERE url="http://example.com/containing-the-fragment-above"
AND xpath="//div[@class='foo']"
то, что я получаю, это (явно неупорядоченные?) элементы DOM, где я хочу, это сам контент HTML. Я также пробовал SELECT content
, но это только выбирает текстовое содержимое. Я хочу HTML. Возможно ли это?