Мне нужно время выполнения ядра CUDA. В Руководстве по лучшей практике говорится, что мы можем использовать либо события, либо стандартные функции синхронизации, такие как clock()
в Windows. Моя проблема в том, что использование этих двух функций дает мне совершенно другой результат.
Фактически, результат, данный событиями, кажется огромным по сравнению с фактической скоростью на практике.
На самом деле мне все это нужно, чтобы уметь прогнозировать время выполнения вычислений, сначала выполнив уменьшенную версию его на меньшем наборе данных. К сожалению, результаты этого теста совершенно нереалистичны, либо слишком оптимистичны (clock()
), либо waaaay слишком пессимистичны (события).