Во многих местах нашего Pandas -using кода у нас есть функция Python process(row)
. Эта функция используется над DataFrame.iterrows()
, беря каждую row
и обрабатывая некоторую обработку и возвращая значение, которое мы окончательно собираем в новый Series
.
Я понимаю, что эта схема использования обходит большинство преимуществ производительности стека numpy/ Pandas.
- Что было бы лучшим способом сделать эту модель использования эффективной? насколько возможно?
- Можем ли мы это сделать, не переписывая большую часть нашего кода?
Еще один аспект этого вопроса: можно ли преобразовать все такие функции в числовое представление? Мне нужно много узнать о стеке numpy/scipy/ Pandas, но кажется, что для действительно произвольной логики иногда вам может понадобиться просто медленная чистая архитектура Python, такая как выше. Это тот случай?