У меня есть набор данных, где один из столбцов содержит категориальную переменную. Я хотел бы преобразовать его в несколько фиктивных переменных, и в этом случае я обычно использовал бы get_dummies
.
Что происходит, так это то, что get_dummies
просматривает данные, доступные в каждом кадре данных, чтобы узнать, сколько их есть, и тем самым создать соответствующее количество фиктивных переменных. Тем не менее, в проблеме, над которой я сейчас работаю, я действительно заранее знаю, что такое возможные категории. Но при просмотре каждого кадра данных индивидуально, не все категории обязательно появляются.
Мой вопрос: есть ли способ передать get_dummies
(или эквивалентную функцию) имена категорий, так что для категорий, которые не отображаются в данном фрейме данных, это просто создаст столбец 0s?
Что-то, что сделало бы это:
categories = ['a', 'b', 'c']
cat
1 a
2 b
3 a
Станьте этим:
cat_a cat_b cat_c
1 1 0 0
2 0 1 0
3 1 0 0