Мы хотим использовать Amazon Elastic MapReduce поверх нашей текущей БД (мы используем Cassandra на EC2). Рассматривая FAQ Amazon EMR, это должно быть возможно: FAQ Amazon EMR: Q: Могу ли я загрузить мои данные из Интернета или где-то кроме Amazon S3?
Однако при создании нового потока задания мы можем сконфигурировать ведро S3 в качестве источника входных данных.
Любые идеи/примеры того, как это сделать?
Спасибо!
PS: Я видел этот вопрос Как использовать внешние данные с помощью Elastic MapReduce, но ответы на них не совсем объясняют, как это сделать/настроить, просто это возможно.