У нас есть архитектура, где мы предоставляем каждому клиенту услуги, подобные бизнес-анализу, для своего веб-сайта (интернет-торговца). Теперь мне нужно проанализировать эти данные на внутреннем уровне (для алгоритмического улучшения, отслеживания производительности и т.д.), И это потенциально довольно тяжело: у нас есть до миллионов строк/клиент/день, и я могу узнать, сколько запросов мы имели в прошлом месяце, еженедельно по сравнению и т.д.... это порядок миллиардов, если не больше.
То, как это делается в настоящее время, является вполне стандартным: ежедневные скрипты, которые сканируют базы данных и генерируют большие CSV файлы. Мне не нравятся эти решения по нескольким причинам:
- как это типично для этих типов скриптов, они попадают в категорию с однократной записью и никогда не касаясь снова
- необходимо отслеживать вещи в режиме реального времени (у нас есть отдельный набор инструментов для запроса последнего часового банкомата).
- это медленный и не "подвижный"
Хотя у меня есть некоторый опыт работы с огромными наборами данных для научного использования, я являюсь полным новичком в том, что касается традиционной RDBM. Похоже, что использование столбцовой базы данных для аналитики может быть решением (аналитикам не нужна большая часть данных, которые у нас есть в базе данных приложений), но я хотел бы знать, какие другие варианты доступны для такого рода проблем.