Я считал, что ответом на мой заголовок часто является то, чтобы пойти и прочитать документацию, но я пролистал книгу НЛТК, но она не дает ответа. Я немного новичок в Python.
У меня есть куча .txt
файлов, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпуса nltk_data
.
Я пробовал PlaintextCorpusReader
но не смог продвинуться дальше, чем:
>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()
Как сегмент я в newcorpus
предложения с использованием Punkt? Я попытался с помощью функции PUNKT но функции PUNKT не мог читать PlaintextCorpusReader
класс?
Можете ли вы привести меня к тому, как я могу записать сегментированные данные в текстовые файлы?