У меня есть огромный набор данных, и до моделирования машинного обучения всегда предлагается, чтобы сначала вы должны удалить сильно коррелированные дескрипторы (столбцы), как я могу вычислить корреляцию между столбцами и удалить столбец с пороговым значением, например, удалить все столбцы или дескрипторы, имеющие > 0,8 корреляции. также он должен сохранить заголовки в сокращении данных.
Пример набора данных
GA PN PC MBP GR AP
0.033 6.652 6.681 0.194 0.874 3.177
0.034 9.039 6.224 0.194 1.137 3.4
0.035 10.936 10.304 1.015 0.911 4.9
0.022 10.11 9.603 1.374 0.848 4.566
0.035 2.963 17.156 0.599 0.823 9.406
0.033 10.872 10.244 1.015 0.574 4.871
0.035 21.694 22.389 1.015 0.859 9.259
0.035 10.936 10.304 1.015 0.911 4.5
Пожалуйста, помогите....