У меня проблема классификации машинного обучения с 80% -ными категориальными переменными. Должен ли я использовать одну горячую кодировку, если я хочу использовать некоторый классификатор для классификации? Могу ли я передать данные в классификатор без кодировки?
Я пытаюсь сделать следующее для выбора функции:
-
Я прочитал файл поезда:
num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_read)
-
Я изменяю тип категориальных функций на категорию:
non_categorial_features = ['orig_destination_distance', 'srch_adults_cnt', 'srch_children_cnt', 'srch_rm_cnt', 'cnt'] for categorical_feature in list(train_small.columns): if categorical_feature not in non_categorial_features: train_small[categorical_feature] = train_small[categorical_feature].astype('category')
-
Я использую одну горячую кодировку:
train_small_with_dummies = pd.get_dummies(train_small, sparse=True)
Проблема в том, что 3-я часть часто застревает, хотя я использую сильную машину.
Таким образом, без одного горячего кодирования я не могу выполнить какой-либо выбор функции, чтобы определить важность функций.
Что вы порекомендуете?