У меня есть около 100 CSV файлов каждые 100 000 x 40 столбцов rows. Я бы хотел сделать некоторый статистический анализ на нем, вытащить некоторые образцы данных, рассчитать общие тенденции, сделать дисперсию и R-квадратный анализ, а также построить некоторые спектральные диаграммы. На данный момент я рассматриваю numpy для анализа.
Мне было интересно, какие проблемы следует ожидать от таких больших файлов? Я уже проверял ошибочные данные. Каковы ваши рекомендации по проведению статистического анализа? было бы лучше, если бы я просто разделил файлы и все это делал в Excel?