Просто начал мою экскурсию по методам и инструментам обработки графов. Что мы в основном делаем - подсчитываем некоторые стандартные показатели, такие как pagerank, коэффициент кластеризации, количество треугольников, диаметр, связь и т.д. В прошлом был доволен Octave, но когда мы начали работать с графиками, допустив, что 10 ^ 9 узлов/ребер мы застряли,
Таким образом, возможные решения могут быть распределены облаком с помощью Hadoop/Giraph, Spark/GraphX, Neo4j поверх них и т.д.
Но так как я новичок, может кто-то посоветовать, что на самом деле выбрать? Я не понял, когда использовать Spark/GraphX и когда Neo4j? Прямо сейчас я рассматриваю Spark/GraphX, поскольку у него больше синтаксиса Python, а у neo4j собственный Cypher. Визуализация в neo4j классная, но не полезная в таких больших масштабах. Я не понимаю, есть ли причина использовать дополнительный уровень программного обеспечения (neo4j) или просто использовать Spark/GraphX? Поскольку я понял, что neo4j не сохранит столько времени, как если бы мы работали с чистым хауопом против Giraph или GraphX или Hive.
Спасибо.