Я читаю файл excel с несколькими численными и категориальными данными. Столбцы name_string содержат символы на иностранном языке. Когда я пытаюсь увидеть содержимое столбца name_string, я получаю результаты, которые я хочу, но внешние символы (которые отображаются корректно в электронной таблице excel) отображаются с неправильной кодировкой. Вот что я имею:
import pandas as pd
df = pd.read_excel('MC_simulation.xlsx', 'DataSet', encoding='utf-8')
name_string = df.name_string.unique()
name_string.sort()
name_string
Производит следующее:
array([u'4th of July', u'911', u'Abab', u'Abass', u'Abcar', u'Abced',
u'Ceded', u'Cedes', u'Cedfus', u'Ceding', u'Cedtim', u'Cedtol',
u'Cedxer', u'Chevrolet Corvette', u'Chuck Norris',
u'Cristina Fern\xe1ndez de Kirchner'], dtype=object)
В последней строке правильно закодированное имя должно быть Cristina Fernández de Kirchner. Может ли кто-нибудь помочь мне в этом вопросе?