-
У меня есть ряд PDF-документов, которые я прочитал в корпусе с библиотекой
tm. Как можно разорвать корпус на предложения? -
Это можно сделать, прочитав файл с
readLines, а затемsentSplitиз пакетаqdap[*]. Для этой функции требуется информационный кадр. Это также потребовало бы оставить корпус и прочитать все файлы по отдельности. -
Как передать функцию
sentSplit{qdap} над корпусом вtm? Или есть лучший способ?
Примечание: в библиотеке openNLP появилась функция sentDetect, которая теперь Maxent_Sent_Token_Annotator - применяется тот же вопрос: как это можно объединить с корпусом [tm]?