У меня GeForce GTX460 SE, так это: 6 SM x 48 CUDA Cores = 288 CUDA Cores. Известно, что в одной Warp содержится 32 потока, а в одном блоке одновременно (одновременно) может быть выполнено только одно Warp. То есть в одном мультипроцессоре (SM) можно одновременно выполнять только один блок, один Warp и только 32 потока, даже если доступно 48 ядер?
Кроме того, пример для распространения конкретного потока и блока может быть использован threadIdx.x и blockIdx.x. Для их распределения используют ядро < < Блоки, темы → > (). Но как выделить определенное количество Warp-s и распространять их, и если это невозможно, то зачем беспокоиться о Warps?