Я пытаюсь реализовать алгоритмы для 1000-мерных данных с 200k + datapoints в python. Я хочу использовать numpy, scipy, sklearn, networkx и другие полезные библиотеки. Я хочу выполнять такие операции, как попарное расстояние между всеми точками и делать кластеризацию во всех точках. Я реализовал рабочие алгоритмы, которые выполняют то, что я хочу, с разумной сложностью, но когда я пытаюсь масштабировать их ко всем моим данным, у меня заканчивается баран. Конечно, я делаю, создавая матрицу для парных расстояний на 200k + данных занимает много памяти.
Вот идет улов: я бы очень хотел сделать это на дрянных компьютерах с небольшим количеством барана.
Есть ли возможный способ сделать эту работу без ограничений низкого барана. То, что это займет гораздо больше времени, на самом деле не проблема, если временные требования не уходят в бесконечность!
Я хотел бы, чтобы мои алгоритмы могли работать, а затем вернулись через час или пять позже, и не застряли, потому что у него кончился баран! Я хотел бы реализовать это в python и иметь возможность использовать библиотеки numpy, scipy, sklearn и networkx. Я хотел бы иметь возможность рассчитать попарное расстояние до всех моих точек и т.д.
Возможно ли это? И как я могу это сделать, что я могу начать читать?
С уважением // Месмер