Я работаю с файлами CSV, где несколько столбцов имеют простой объект json (несколько пар ключ-значение), в то время как другие столбцы нормальные. Вот пример:
name,dob,stats
john smith,1/1/1980,"{""eye_color"": ""brown"", ""height"": 160, ""weight"": 76}"
dave jones,2/2/1981,"{""eye_color"": ""blue"", ""height"": 170, ""weight"": 85}"
bob roberts,3/3/1982,"{""eye_color"": ""green"", ""height"": 180, ""weight"": 94}"
Какой самый эффективный способ анализа и разбивки столбца stats
на дополнительные столбцы после использования df = pandas.read_csv('file.csv')
?
Примерно через час я смог придумать только одно:
import json
stdf = df['stats'].apply(json.loads)
stlst = list(stdf)
stjson = json.dumps(stlst)
df.join(pandas.read_json(stjson))
Похоже, что я делаю это неправильно, и это довольно трудоемко, учитывая, что мне нужно регулярно делать это на трех столбцах.
Желаемый результат - объект dataframe ниже. Добавил следующие строки кода, чтобы попасть туда моим (дрянным) способом:
df = df.join(pandas.read_json(stjson))
del(df['stats'])
In [14]: df
Out[14]:
name dob eye_color height weight
0 john smith 1/1/1980 brown 160 76
1 dave jones 2/2/1981 blue 170 85
2 bob roberts 3/3/1982 green 180 94