Я использую BeautifulSoup для анализа некоторого содержимого с html-страницы.
Я могу извлечь из html содержимое, которое я хочу (т.е. текст, содержащийся в span
, определяемый классом class
myclass).
result = mycontent.find(attrs={'class':'myclass'})
Я получаю этот результат:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>
Если я попытаюсь извлечь текст, используя:
result.get_text()
Получаю:
Lorem ipsumdolor sit amet,consectetur...
Как вы можете видеть, когда тег <br>
удален, интервал между содержимым больше, а два слова конкретизированы.
Как я могу решить эту проблему?