Я узнаю о Кафке, читаю секцию введения здесь
https://kafka.apache.org/documentation.html#introduction
в частности, часть о потребителях. Во втором-последнем абзаце во введении он читает
Кафка делает это лучше. Имея понятие параллелизма - раздел - в рамках тем, Kafka может обеспечить как заказывающие гарантии, так и балансировку нагрузки над пулом потребительских процессов. Это достигается путем назначения разделов в теме для потребителей в группе потребителей, так что каждый раздел потребляется ровно одним потребителем в группе. Делая это, мы гарантируем, что потребитель является единственным читателем этого раздела и потребляет данные по порядку. Поскольку существует много разделов, это все равно уравновешивает нагрузку на многие экземпляры потребителей. Однако обратите внимание, что не может быть больше экземпляров клиентов, чем разделов.
Моя путаница проистекает из этого последнего предложения, потому что в изображении, прямо над тем абзацем, где автор изображает две группы потребителей и тему с четырьмя разделами, есть больше экземпляров потребителей, чем разделы!
Также не имеет смысла, что не может быть больше экземпляров потребителей, чем разделов, потому что тогда разделы были бы невероятно малы, и кажется, что накладные расходы при создании нового раздела для каждого экземпляра потребителя будут болеть Kafka. Я понимаю, что разделы используются для отказоустойчивости и снижения нагрузки на каком-либо одном сервере, но приведенное выше предложение не имеет смысла в контексте распределенной системы, которая, как предполагается, сможет обрабатывать тысячи потребителей за раз.