У меня есть работа с искровым разрядом, которая выполняется ежечасно. Каждый запуск генерирует и сохраняет новые данные в S3
с шаблоном именования каталогов DATA/YEAR=?/MONTH=?/DATE=?/datafile
.
После загрузки данных в S3
, я хочу исследовать их с помощью Athena
. Более того, я хотел бы визуализировать их в QuickSight
, подключившись к Athena в качестве источника данных.
Проблема заключается в том, что после каждого запуска моей партии Spark вновь созданные данные, хранящиеся в S3
, не будут обнаружены Athena, если только я не вручную выполнил запрос MSCK REPARI TABLE
.
Есть ли способ сделать Athena автоматически обновлять данные, чтобы я мог создать полностью автоматический конвейер визуализации данных?