В принципе, я хочу использовать BeautifulSoup, чтобы строго фиксировать видимый текст на веб-странице. Например, эта веб-страница - это мой тестовый пример. И я в основном хочу просто получить текстовый текст (статья) и, возможно, даже несколько названий вкладок здесь и там. Я пробовал предложение в этом вопросе SO, который возвращает много тегов <script>
и html комментариев, которые я не хочу. Я не могу определить аргументы, которые мне нужны для функции findAll()
, чтобы просто получить видимые тексты на веб-странице.
Итак, как мне найти все видимые тексты, исключая скрипты, комментарии, css и т.д.?