Что означает NN VBD IN DT NNS RB в NLTK?

когда я фрагментирую текст, я получаю много кодов на выходе, таких как NN, VBD, IN, DT, NNS, RB. Есть ли какой-то список, где-то где-то, где говорится, что это значит? Я пробовал googling nltk chunk code nltk chunk grammar nltk chunk tokens.

Но я не могу найти никакой документации, которая объясняет, что означают эти коды.

Ответ 1

Теги, которые вы видите, не являются результатом кусков, а тегами POS, которые происходят до разделения. Это теги Penn Treebank, см. Https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html.

>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])

Чтобы заставить куски искать поддеревья в выделенных выводах. Из вышеприведенного вывода Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) указывает кусок.

Этот учебный сайт очень полезен для объяснения процесса chunking в NLTK: http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf.

Для официальной документации см. Http://www.nltk.org/howto/chunk.html

Ответ 2

Как сказано выше Alvas, эти теги являются частью речи, которая говорит, является ли слово/фраза словосочетанием, наречием, определителем, глаголом и т.д.

Здесь вы можете указать информацию о теге POS.

Chunking recovers the phrased from the Part of speech tags

Вы можете сослаться на эту ссылку для чтения для фрагментации.