Что такое chunker в обработке естественного языка?

Кто-нибудь знает, что такое chunker в контексте обработки текста и что это за использование?

Ответ 1

Согласно эти слайды, chunking является альтернативой синтаксическому анализу, который обеспечивает частичную синтаксическую структуру предложения с ограниченной глубиной дерева, поскольку против полного разбора.

Он более ограничен, чем полный синтаксический анализ, но достаточно, когда дело доходит до извлечения или игнорирования информации и поэтому используется много раз, поскольку оно быстрее и надежнее, чем синтаксический анализ.

В слайдах доступно гораздо больше информации.

Дальнейшие ссылки:

Ответ 2

Я лично не согласен с другими ответами, но Юракский и Мартин дают немного другое определение. Для них фрагментация - это, в частности, тип мелкого разбора, в котором нет рекурсивных фраз.

Одним из примеров, которые они приводят, является фраза "полет из Денвера". Один синтаксический разбор, который не будет генерироваться чанкером, будет "[NP полет [PP из [NP Denver]]], потому что он подразумевает грамматику с NP-рекурсией.

Ответ 3

Это очень упрощенный тип разбора, называемый мелкий анализ. В проекте OpenNLP имеется доступный модуль chunker, и вы можете увидеть его документацию для примера блокировки в действии