Я хочу использовать библиотеку Spark mllib.recommendation
для создания прототипа рекомендуемой системы. Однако формат данных пользователя, который у меня есть, имеет следующий формат:
AB123XY45678
CD234WZ12345
EF345OOO1234
GH456XY98765
....
Если я хочу использовать библиотеку mllib.recommendation
, в соответствии с API класса Rating
, идентификаторы пользователя должны быть целыми (также должны быть смежными?)
Похоже, должно быть сделано какое-то преобразование между реальными идентификаторами пользователей и числовыми, используемыми Spark. Но как мне это сделать?