У меня есть много (4000+) CSV данных запаса (Date, Open, High, Low, Close), которые я импортирую в отдельные фреймы Pandas для выполнения анализа. Я новичок в python и хочу рассчитать скользящую 12-месячную бета-версию для каждого запаса, я нашел сообщение для вычисления скользящей бета-версии (Python Pandas вычисляет бета-версию подвижного состава с использованием скользящей привязки к объекту groupby в векторизованном виде), однако при использовании в моем коде ниже занимает более 2,5 часов! Учитывая, что я могу выполнять те же вычисления в таблицах SQL менее чем за 3 минуты, это слишком медленно.
Как повысить производительность моего кода ниже, чем SQL? Я понимаю, что Pandas/python имеет такую возможность. Мой текущий метод перемещается по каждой строке, которая, как мне известно, замедляет производительность, но я не знаю какого-либо общего способа выполнить вычисление бета-запроса в кадре данных на фрейме данных.
Примечание: первые 2 этапа загрузки CSV в отдельные кадры данных и вычисление ежедневной доходности занимает всего ~ 20 секунд. Все мои фреймы CSV хранятся в словаре под названием "FilesLoaded" с такими именами, как "XAO".
Ваша помощь будет очень признательна! Спасибо:)
import pandas as pd, numpy as np
import datetime
import ntpath
pd.set_option('precision',10) #Set the Decimal Point precision to DISPLAY
start_time=datetime.datetime.now()
MarketIndex = 'XAO'
period = 250
MinBetaPeriod = period
# ***********************************************************************************************
# CALC RETURNS
# ***********************************************************************************************
for File in FilesLoaded:
FilesLoaded[File]['Return'] = FilesLoaded[File]['Close'].pct_change()
# ***********************************************************************************************
# CALC BETA
# ***********************************************************************************************
def calc_beta(df):
np_array = df.values
m = np_array[:,0] # market returns are column zero from numpy array
s = np_array[:,1] # stock returns are column one from numpy array
covariance = np.cov(s,m) # Calculate covariance between stock and market
beta = covariance[0,1]/covariance[1,1]
return beta
#Build Custom "Rolling_Apply" function
def rolling_apply(df, period, func, min_periods=None):
if min_periods is None:
min_periods = period
result = pd.Series(np.nan, index=df.index)
for i in range(1, len(df)+1):
sub_df = df.iloc[max(i-period, 0):i,:]
if len(sub_df) >= min_periods:
idx = sub_df.index[-1]
result[idx] = func(sub_df)
return result
#Create empty BETA dataframe with same index as RETURNS dataframe
df_join = pd.DataFrame(index=FilesLoaded[MarketIndex].index)
df_join['market'] = FilesLoaded[MarketIndex]['Return']
df_join['stock'] = np.nan
for File in FilesLoaded:
df_join['stock'].update(FilesLoaded[File]['Return'])
df_join = df_join.replace(np.inf, np.nan) #get rid of infinite values "inf" (SQL won't take "Inf")
df_join = df_join.replace(-np.inf, np.nan)#get rid of infinite values "inf" (SQL won't take "Inf")
df_join = df_join.fillna(0) #get rid of the NaNs in the return data
FilesLoaded[File]['Beta'] = rolling_apply(df_join[['market','stock']], period, calc_beta, min_periods = MinBetaPeriod)
# ***********************************************************************************************
# CLEAN-UP
# ***********************************************************************************************
print('Run-time: {0}'.format(datetime.datetime.now() - start_time))