Согласно mllib.feature.Word2Vec - искра 1.3.1 документация [1]:
def setNumIterations(numIterations: Int): Word2Vec.this.type
Устанавливает количество итераций (по умолчанию: 1), которое должно быть меньше или равно количеству разделов.
def setNumPartitions(numPartitions: Int): Word2Vec.this.type
Устанавливает количество разделов (по умолчанию: 1). Используйте небольшое число для точности.
Но в этом Pull Request [2]:
Чтобы сделать нашу реализацию более масштабируемой, мы обучаем каждый раздел отдельно и объединить модель каждого раздела после каждой итерации. Чтобы сделать модель более точной, могут потребоваться несколько итераций.
Вопросы:
-
Как параметры numIterations и numPartitions влияют на внутреннюю работу алгоритма?
-
Есть ли компромисс между установкой количества разделов и количеством итераций с учетом следующих правил?
-
больше точности → больше итераций a/c до [2]
-
больше итераций → больше разделов a/c до [1]
-
больше разделов → меньше точности
-