Я пытаюсь использовать
myNews=urlopen(url).read()
myNews=nltk.clean_html(myNews)
Я получаю следующую ошибку:
Файл "/usr/local/lib/python2.7/dist-packages/nltk-3.0.0-py2.7.egg/nltk/util.py", строка 346, в файле clean_html raise NotImplementedError ( "Чтобы удалить разметку HTML, используйте функцию BeautifulSoup get_text()" ) NotImplementedError: Чтобы удалить разметку HTML, используйте функцию BeautifulSoup get_text()
Когда я смотрю файл util.py, я вижу, что он не реализован:
def clean_html(html):
raise NotImplementedError ("To remove HTML markup, use BeautifulSoup get_text() function")
Не должно ли оно быть реализовано?