Есть ли там lib, который может взять текст (например, html-документ) и список строк (например, имя некоторых продуктов), а затем найти шаблон в списке строк и создать регулярное выражение, которое извлечь все строки в тексте (html-документ), которые соответствуют найденному шаблону?
Например, учитывая следующий html:
<table>
<tr>
<td>Product 1</td>
<td>Product 2</td>
<td>Product 3</td>
<td>Product 4</td>
<td>Product 5</td>
<td>Product 6</td>
<td>Product 7</td>
<td>Product 8</td>
</tr>
</table>
и следующий список строк:
['Product 1', 'Product 2', 'Product 3']
Мне нужна функция, которая создаст регулярное выражение, например следующее:
'<td>(.*?)</td>'
а затем извлечь всю информацию из html, которая соответствует регулярному выражению. В этом случае выход будет:
['Product 1', 'Product 2', 'Product 3', 'Product 4', 'Product 5', 'Product 6', 'Product 7', 'Product 8']
УТОЧНЕНИЕ:
Я хотел бы, чтобы функция смотрела на окружающие образцы, а не на сами образцы. Так, например, если html был:
<tr>
<td>Word</td>
<td>More words</td>
<td>101</td>
<td>-1-0-1-</td>
</tr>
и образцы ['Word', 'More words']
Я бы хотел его извлечь:
['Word', 'More words', '101', '-1-0-1-']