Python Pandas итерация по строкам и имена столбцов доступа

Я пытаюсь выполнить итерацию по строкам фрейма данных Pandas Python Pandas. Внутри каждой строки фрейма я пытаюсь ссылаться на каждое значение вдоль строки по его имени столбца.

Вот что у меня есть:

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.rand(10,4),columns=list('ABCD'))
print df
          A         B         C         D
0  0.351741  0.186022  0.238705  0.081457
1  0.950817  0.665594  0.671151  0.730102
2  0.727996  0.442725  0.658816  0.003515
3  0.155604  0.567044  0.943466  0.666576
4  0.056922  0.751562  0.135624  0.597252
5  0.577770  0.995546  0.984923  0.123392
6  0.121061  0.490894  0.134702  0.358296
7  0.895856  0.617628  0.722529  0.794110
8  0.611006  0.328815  0.395859  0.507364
9  0.616169  0.527488  0.186614  0.278792

Я использовал этот подход для итерации, но это только дает мне часть решения - после выбора строки на каждой итерации, как мне получить доступ строки по имени столбца?

Вот что я пытаюсь сделать:

for row in df.iterrows():
    print row.loc[0,'A']
    print row.A
    print row.index()

Я понимаю, что строка является Pandas series. Но у меня нет возможности индексировать в Серии.

Можно ли использовать имена столбцов одновременно итерации по строкам?

Ответ 1

Мне также нравится itertuples()

for row in df.itertuples():
    print(row.A)
    print(row.Index)

поскольку строка является именованным кортежем, если вы хотите получить доступ к значениям в каждой строке, это должно быть MUCH быстрее

скорость:

df = pd.DataFrame([x for x in range(1000*1000)], columns=['A'])
st=time.time()
for index, row in df.iterrows():
    row.A
print(time.time()-st)
45.05799984931946

st=time.time()
for row in df.itertuples():
    row.A
print(time.time() - st)
0.48400020599365234

Ответ 2

Элемент из iterrows() не является Серией, а кортежем (index, Series), поэтому вы можете распаковать кортеж в цикле for следующим образом:

for (idx, row) in df.iterrows():
    print(row.loc['A'])
    print(row.A)
    print(row.index)

#0.890618586836
#0.890618586836
#Index(['A', 'B', 'C', 'D'], dtype='object')

Ответ 3

for i in range(1,len(na_rm.columns)):
           print ("column name:", na_rm.columns[i])

Выход:

column name: seretide_price
column name: symbicort_mkt_shr
column name: symbicort_price