Я пытаюсь использовать word2vec
модуль из gensim
библиотеки обработки естественного языка в Python.
Документы говорят инициализировать модель:
from gensim.models import word2vec
model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)
В каком формате gensim
ожидает ввода предложений? У меня есть исходный текст
"the quick brown fox jumps over the lazy dogs"
"Then a cop quizzed Mick Jagger ex-wives briefly."
etc.
Какую дополнительную обработку мне нужно отправить в word2fec
?
ОБНОВЛЕНИЕ: Вот что я пробовал. Когда он загружает предложения, я ничего не получаю.
>>> sentences = ['the quick brown fox jumps over the lazy dogs',
"Then a cop quizzed Mick Jagger ex-wives briefly."]
>>> x = word2vec.Word2Vec()
>>> x.build_vocab([s.encode('utf-8').split( ) for s in sentences])
>>> x.vocab
{}