Сколько RDD создает DStream для пакетного интервала?

Предоставляет ли один пакетный интервал данных один и только один RDD в DStream независимо от того, насколько велика величина данных?

Ответ 1

Да, для каждого интервала пакета имеется ровно один RDD, создаваемый на каждом периодическом интервале, независимо от количества записей (которые включены в RDD - внутри него может быть нулевая запись).

Если этого не было, и создание RDD было обусловлено количеством элементов, у вас не было бы синхронной (микро-пакетной) потоковой передачи, а была бы формой асинхронной обработки.

Ответ 3

Уже очень поздно отвечать на эту тему. Но все же стоит добавить еще несколько пунктов. Количество СДР зависит от того, сколько приемников у вас в приложении. Вот почему "чтение" будет иметь несколько RDD. Но если у вас есть только один приемник или Кафка в качестве источника (без приемника), в этом случае вы получите только один СДР.