У нас есть набор данных, который находится в разреженном представлении и имеет 25 функций и 1 двоичную метку. Например, строка набора данных:
Label: 0
exid: 24924687
Features:
11:0 12:1 13:0 14:6 15:0 17:2 17:2 17:2 17:2 17:2 17:2
21:11 21:42 21:42 21:42 21:42 21:42
22:35 22:76 22:27 22:28 22:25 22:15 24:1888
25:9 33:322 33:452 33:452 33:452 33:452 33:452 35:14
Итак, иногда функции имеют несколько значений, и они могут быть одинаковыми или разными, и веб-сайт сообщает:
Некоторые категориальные функции многозначны (порядок не имеет значения)
Мы не знаем, какова семантика функций и какое значение им присвоено (из-за некоторой озабоченности по поводу конфиденциальности они скрыты от общественности)
Мы знаем только:
Labelозначает, что пользователь нажал на рекомендованное объявление или нет.Featuresописывает продукт, который был рекомендован пользователю.Taskпредназначен для прогнозирования вероятности получения клика пользователем по объявлению продукта.
Любые комментарии по следующим проблемам приветствуются:
- Какой лучший способ импортировать такие наборы данных в структуру данных Python.
- Как работать с многозначными объектами, особенно если они имеют похожие значения, повторенные
kраз?