-
У меня есть ряд PDF-документов, которые я прочитал в корпусе с библиотекой
tm
. Как можно разорвать корпус на предложения? -
Это можно сделать, прочитав файл с
readLines
, а затемsentSplit
из пакетаqdap
[*]. Для этой функции требуется информационный кадр. Это также потребовало бы оставить корпус и прочитать все файлы по отдельности. -
Как передать функцию
sentSplit
{qdap
} над корпусом вtm
? Или есть лучший способ?
Примечание: в библиотеке openNLP
появилась функция sentDetect
, которая теперь Maxent_Sent_Token_Annotator
- применяется тот же вопрос: как это можно объединить с корпусом [tm]?