Используя трансформаторы Spark ML, я пришел к DataFrame, где каждая строка выглядит так:
Row(object_id, text_features_vector, color_features, type_features)
где text_features - разреженный вектор весовых коэффициентов, color_features - это небольшой 20-элементный (один горячий кодировщик) плотный вектор цветов, а type_features также является плотным вектором с одним горячим кодировщиком типов.
Каким будет хороший подход (используя средства Spark) для объединения этих функций в один большой массив, чтобы я измерял такие вещи, как косинус расстояние между любыми двумя объектами?