Я хотел бы запустить nltk punkt для разделения предложений. Нет модели обучения, поэтому я тренирую модель отдельно, но я не уверен, правильный ли формат данных обучения, который я использую.
Мои данные обучения - одно предложение на строку. Я не смог найти документацию об этом, только этот поток (https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM) проливает некоторый свет на формат данных обучения.
Каков правильный формат данных обучения для токенинга предложения nltk punkt?