Я создал временную частоту, используя HashingTF
в Spark. У меня есть термин частоты с использованием tf.transform
для каждого слова.
Но результаты отображаются в этом формате.
[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...]
,[termFrequencyofWord1, termFrequencyOfWord2 ....]
например:
(1048576,[105,3116],[1.0,2.0])
Я могу получить индекс в хэш-ведре, используя tf.indexOf("word")
.
Но как я могу получить слово, используя индекс?