В этой странице говорится, что:
[...] skip-gram инвертирует контексты и цели и пытается предсказать каждое контекстное слово из его целевого слова [...]
Однако, глядя на набор данных обучения, который он производит, содержимое пары X и Y представляется взаимозаменяемым, поскольку эти две пары (X, Y):
(quick, brown), (brown, quick)
Итак, зачем различать это между контекстом и целями, если в конце концов это одно и то же?
Кроме того, делая упражнение Udacity Deep Learning на word2vec, мне интересно, почему они, похоже, делают разницу между этими двумя подходами, проблема:
Альтернативой skip-грамму является еще одна модель Word2Vec под названием CBOW (Continuous Bag of Words). В модели CBOW вместо предсказания контекстного слова из словарного вектора вы прогнозируете слово из суммы всех словных векторов в его контексте. Внедрить и оценить модель CBOW, подготовленную по набору данных text8.
Не приведет ли это к таким же результатам?