Лучшая практика тестирования интеграции данных

Я осматриваю некоторые ресурсы о том, какие наилучшие методы используются для конвейера приема данных, основанного на AWS, который использует Kafka, шторм, искру (потоковое и пакетное), которые считывают и записывают в Hbase с использованием различных микросервисов для отображения данных слой. Для моего локального env я думаю о создании докеры или бродячих образов, которые позволят мне взаимодействовать с env. Моя проблема заключается в том, как найти что-то для функциональной конечной среды, которая ближе к prod, отбрасывать мертвый путь было бы всегда на окружающую среду, но это становится дорогим. В том же духе с точки зрения перфекционной среды кажется, что мне, возможно, придется плутать и иметь учетные записи служб, которые могут иметь "бег мира", но другие учетные записи, которые будут ограничены через вычислительные ресурсы, чтобы они не подавляли кластер.

Мне любопытно, как другие справились с одной и той же проблемой, и если я думаю об этом назад.

Ответ 1

AWS также предоставляет услугу Docker через контейнеры EC2. Если ваше локальное развертывание с использованием изображений Docker прошло успешно, вы можете проверить обслуживание контейнеров AWS EC2 (https://aws.amazon.com/ecs/).

Кроме того, проверьте штормовой докер (https://github.com/wurstmeister/storm-docker), предоставляет простые в использовании файлы докеров для развертывания кластеров штормов.

Ответ 2

Попробуйте мини-кластеры suoop. Он поддерживает большинство инструментов, которые вы используете.

Mini Cluster