Я хочу скопировать ~ 100 000 коротких строк на что-то вроде расстояния в q-грамм или простое расстояние до мешка или, может быть, расстояние Левенштейна в Python. Я планировал заполнить матрицу расстояний (100 000 выбрать 2 сравнения), а затем выполнить иерархическую кластеризацию с pyCluster. Но я сталкиваюсь с некоторыми проблемами с памятью, прежде чем даже выйти из-под земли. Например, матрица расстояний слишком велика для numpy.
aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
Это похоже на разумную вещь? Или я обречен на проблемы с памятью в этой задаче? Благодарим за помощь.