У меня есть веб-страница, с которой мне нужно очистить некоторые данные. Проблема в том, что каждая страница может иметь или не иметь конкретных данных, или она может иметь дополнительные данные выше или ниже этого в DOM, и нет идентификаторов CSS, о которых можно говорить.
Обычно я мог использовать либо идентификаторы CSS, либо XPath для доступа к node, который я ищу. У меня нет такого варианта в этом случае. То, что я пытаюсь сделать, это поиск текста "метки", а затем захват данных в следующем <TD>
node:
<tr>
<td><b>Name:</b></td>
<td>Joe Smith <small><a href="/Joe"><img src="/joe.png"></a></small></td>
</tr>
В приведенном выше HTML я бы поискал:
doc.search("[text()*='Name:']")
чтобы получить node непосредственно перед данными, которые мне нужны, но я не уверен, как перемещаться оттуда.