Я хочу извлечь текст из файла HTML с помощью Python. Я хочу, по сути, тот же вывод, который я получил бы, если бы скопировал текст из браузера и вставил его в блокнот.
Мне нужно что-то более надежное, чем использование регулярных выражений, которые могут выйти из строя на плохо сформированном HTML. Я видел, как многие рекомендуют Beautiful Soup, но у меня было несколько проблем с этим. Во-первых, он взял нежелательный текст, например, источник JavaScript. Кроме того, он не интерпретировал объекты HTML. Например, я бы ожидал & # 39; в HTML-источнике, который будет преобразован в апостроф в тексте, точно так же, как если бы я вставлял содержимое браузера в блокнот.
Обновление html2text
выглядит многообещающим. Он правильно обрабатывает объекты HTML и игнорирует JavaScript. Однако он не дает ровного текста; он производит уценку, которая затем должна быть превращена в простой текст. Он не содержит примеров или документации, но код выглядит чистым.
Похожие вопросы: