У меня есть база данных Sqlite, которая содержит следующий тип схемы:
termcount(doc_num, term , count)
В этой таблице содержатся термины с соответствующими значениями в документе. как
(doc1 , term1 ,12)
(doc1, term 22, 2)
.
.
(docn,term1 , 10)
Эта матрица может рассматриваться как разреженная матрица, так как каждый документ содержит очень мало терминов, которые будут иметь ненулевое значение.
Как создать плотную матрицу из этой разреженной матрицы с помощью numpy, поскольку мне приходится вычислять сходство между документами, используя подобие косинуса.
Эта плотная матрица будет выглядеть как таблица с docid в качестве первого столбца, и все члены будут перечислены как первая строка. Остальные ячейки будут содержать count.