У нас есть много пользовательских данных взаимодействия с различных сайтов, хранящихся в Кассандре, таких как файлы cookie, посещения страниц, просмотр объявлений, клики по объявлениям и т.д., на которые мы хотели бы сделать отчетность. Наша нынешняя схема Cassandra поддерживает базовые отчеты и запросы. Однако мы также хотели бы создавать большие запросы, которые обычно включают Joins в больших Column Families (содержащие миллионы строк).
Какой подход лучше всего подходит для этого? Одна из возможностей - извлечь данные в реляционную базу данных, такую как mySQL, и провести там интеллектуальный анализ данных. Альтернативным может быть попытка использовать hadoop с ульем или свинью для запуска сокращения карты запросов для этой цели? Я должен признать, что у меня нет опыта с последним.
У кого-нибудь есть опыт различий в производительности в одном, а другой? Будете ли вы запускать запросы с уменьшением размера на реальном экземпляре Cassandra или на резервной копии, чтобы предотвратить нагрузку на запрос на производительность записи?