Я создаю несколько пустых массивов со счетчиками слов в Python: строки - это документы, столбцы - это счетчики для слова X. Если у меня много нулевых счетчиков, люди предлагают использовать разреженные матрицы при дальнейшей обработке, например, в классификаторе. Однако, когда в массив Scikit добавлялся классификатор логистической регрессии
-
говорит
разреженная матрица - это матрица, в которой большинство элементов равно нулю Это подходящий способ определить, когда использовать разреженную матрицу формат - как только> 50% значений равны нулю? Или это делает смысл использовать на всякий случай?
- Насколько разреженная матрица помогает производительности в такой задаче, как моя, особенно по сравнению с пустым массивом или стандартным списком?
- Пока что я собираю свои данные в массив, а затем преобразую в csr_matrix в Scipy. Это правильный способ сделать это? я не могу выяснить, как построить разреженную матрицу с нуля, и что может быть невозможно.
Любая помощь высоко ценится!