Я хотел бы распараллелить следующий код:
for row in df.iterrows():
idx = row[0]
k = row[1]['Chromosome']
start,end = row[1]['Bin'].split('-')
sequence = sequence_from_coordinates(k,1,start,end) #slow download form http
df.set_value(idx,'GC%',gc_content(sequence,percent=False,verbose=False))
df.set_value(idx,'G4 repeats', sum([len(list(i)) for i in g4_scanner(sequence)]))
df.set_value(idx,'max flexibility',max([item[1] for item in dna_flex(sequence,verbose=False)]))
Я пытался использовать multiprocessing.Pool()
так как каждая строка может обрабатываться независимо, но я не могу понять, как совместно использовать DataFrame. Я также не уверен, что это лучший подход для распараллеливания с пандами. Любая помощь?