У меня есть работа с искровым разрядом, которая выполняется ежечасно. Каждый запуск генерирует и сохраняет новые данные в S3 с шаблоном именования каталогов DATA/YEAR=?/MONTH=?/DATE=?/datafile.
После загрузки данных в S3, я хочу исследовать их с помощью Athena. Более того, я хотел бы визуализировать их в QuickSight, подключившись к Athena в качестве источника данных.
Проблема заключается в том, что после каждого запуска моей партии Spark вновь созданные данные, хранящиеся в S3, не будут обнаружены Athena, если только я не вручную выполнил запрос MSCK REPARI TABLE.
Есть ли способ сделать Athena автоматически обновлять данные, чтобы я мог создать полностью автоматический конвейер визуализации данных?