Кто-нибудь знает, что такое chunker в контексте обработки текста и что это за использование?
Что такое chunker в обработке естественного языка?
Ответ 1
Согласно эти слайды, chunking является альтернативой синтаксическому анализу, который обеспечивает частичную синтаксическую структуру предложения с ограниченной глубиной дерева, поскольку против полного разбора.
Он более ограничен, чем полный синтаксический анализ, но достаточно, когда дело доходит до извлечения или игнорирования информации и поэтому используется много раз, поскольку оно быстрее и надежнее, чем синтаксический анализ.
В слайдах доступно гораздо больше информации.
Дальнейшие ссылки:
Ответ 2
Я лично не согласен с другими ответами, но Юракский и Мартин дают немного другое определение. Для них фрагментация - это, в частности, тип мелкого разбора, в котором нет рекурсивных фраз.
Одним из примеров, которые они приводят, является фраза "полет из Денвера". Один синтаксический разбор, который не будет генерироваться чанкером, будет "[NP полет [PP из [NP Denver]]], потому что он подразумевает грамматику с NP-рекурсией.
Ответ 3
Это очень упрощенный тип разбора, называемый мелкий анализ. В проекте OpenNLP имеется доступный модуль chunker, и вы можете увидеть его документацию для примера блокировки в действии