Основная задача, которую я имею под рукой, -
a) Прочитайте отдельные данные, разделенные вкладкой.
b) Проделайте основную предварительную обработку
c) Для каждого категориального столбца используйте LabelEncoder
для создания сопоставления. Это немного похоже на это
mapper={}
#Converting Categorical Data
for x in categorical_list:
mapper[x]=preprocessing.LabelEncoder()
for x in categorical_list:
df[x]=mapper[x].fit_transform(df.__getattr__(x))
где df
- это pandas dataframe, а categorical_list
- список заголовков столбцов, которые необходимо преобразовать.
d) Обучите классификатор и сохраните его на диск с помощью pickle
e) Теперь в другой программе загружена модель.
f) Загружаются тестовые данные и выполняется одна и та же предварительная обработка.
g) LabelEncoder's
используются для преобразования категориальных данных.
h) Модель используется для прогнозирования.
Теперь вопрос, который у меня есть, правильно ли будет выполняться шаг g)
?
Как говорится в документации для LabelEncoder
It can also be used to transform non-numerical labels (as long as
they are hashable and comparable) to numerical labels.
Итак, каждый хеш входа будет иметь то же самое значение каждый раз?
Если нет, то это хороший способ. Любой способ получить отображения кодера? Или совсем другой путь от LabelEncoder?