Предоставляет ли один пакетный интервал данных один и только один RDD в DStream независимо от того, насколько велика величина данных?
Сколько RDD создает DStream для пакетного интервала?
Ответ 1
Да, для каждого интервала пакета имеется ровно один RDD, создаваемый на каждом периодическом интервале, независимо от количества записей (которые включены в RDD - внутри него может быть нулевая запись).
Если этого не было, и создание RDD было обусловлено количеством элементов, у вас не было бы синхронной (микро-пакетной) потоковой передачи, а была бы формой асинхронной обработки.
Ответ 2
В Руководство по программированию Spark Streaming - Discretized Streams (DStreams):
Каждый RDD в DStream содержит данные с определенного интервала
Ответ 3
Уже очень поздно отвечать на эту тему. Но все же стоит добавить еще несколько пунктов. Количество СДР зависит от того, сколько приемников у вас в приложении. Вот почему "чтение" будет иметь несколько RDD. Но если у вас есть только один приемник или Кафка в качестве источника (без приемника), в этом случае вы получите только один СДР.