В Spark Streaming возможно (и обязательно, если вы собираетесь использовать операции с сохранением состояния), чтобы установить StreamingContext для выполнения контрольных точек в надежное хранилище данных (S3, HDFS,...) of (AND):
- Метаданные
-
DStreamlineage
Как описано здесь, чтобы установить хранилище выходных данных, вам нужно позвонить yourSparkStreamingCtx.checkpoint(datastoreURL)
С другой стороны, можно установить интервалы контрольной точки линии для каждого DataStream, просто позвонив checkpoint(timeInterval) в них. Фактически, рекомендуется установить интервал контрольной точки линии между 5 и 10 раз скользящим интервалом DataStream:
dstream.checkpoint(checkpointInterval). Как правило, контрольно-пропускной пункт интервал 5 - 10 интервалов скольжения DStream - хорошая настройка для попробуйте.
Мой вопрос:
Когда контекст потоковой передачи настроен на выполнение контрольной точки и no ds.checkpoint(interval) называется, включена ли контрольная точка линии для всех потоков данных со значением по умолчанию checkpointInterval, равным batchInterval? Или, наоборот, только метаданные проверяют, что включено?