spaCy тегирует каждый из Token в Document с частью речи (в двух разных форматах, один из которых хранится в свойствах pos и pos_ Token, а другой хранится в свойства tag и tag_) и синтаксическую зависимость от его токена .head (сохраненного в свойствах dep и dep_).
Некоторые из этих тегов не требуют пояснений, даже для кого-то вроде меня без фона лингвистики:
>>> import spacy
>>> en_nlp = spacy.load('en')
>>> document = en_nlp("I shot a man in Reno just to watch him die.")
>>> document[1]
shot
>>> document[1].pos_
'VERB'
Другие... не являются:
>>> document[1].tag_
'VBD'
>>> document[2].pos_
'DET'
>>> document[3].dep_
'dobj'
Хуже того, официальные документы не содержат даже списка возможных тегов для большинства этих свойств, а также значений любого из их. Они иногда упоминают, какой стандарт токенизации они используют, но эти утверждения в настоящее время не совсем точны, и, кроме того, стандарты сложны для отслеживания.
Каковы возможные значения свойств tag_, pos_ и dep_, и что они означают?