Использовать callgrind в качестве профайлера пробоотбора?

Я искал профилировщик выборки Linux, и callgrind стал самым близким к показам полезных результатов. Однако накладные расходы оцениваются в 20-100x медленнее, чем обычно. Кроме того, меня интересует только время, затрачиваемое на каждую функцию (с особым упором на блокировку вызовов, таких как read() и write(), которые не будут отображаться никаким другим профилировщиком).

  • Есть ли способ отключить избыточные параметры, чтобы записывать минимальные данные для генерации времени, затраченного на различные стеки вызовов?
  • Получает ли наследие cachegrind cachegrind, что избыточный материал выполняется в отношении профилирования кеша и т.д.
  • Я предполагаю, что callgrind работает как отладчик. Можно ли это отрегулировать для выборочного процесса с интервалами, а не для каждой отдельной инструкции?

Ответ 1

3) Callgrind работает как динамический транслятор, который управляет оригинальным кодом с кодом счетного инструмента. Инструментарий выполняется для каждой инструкции доступа к памяти в коде (для моделирования кэша) и (я предлагаю) для каждой команды, подобной jmp, для отслеживания exec. подсчет каждого базового блока.

У меня есть небольшой профилировщик пробоотбора, который действует как отладчик; Он вводит в приложение счетчик профилей setitimer(), а затем перехватывает все SIGALRM и печатает текущее значение $eip.

Ранее были некоторые профилировщики выборки с setitimer, также есть profil() для чего-то вроде. Это используется glibc/gmon/gmon.c и gprof -p (точнее, gcc -pg). Функция profil() позволяет профилировать единый фрагмент фрагмента фрагмента с выборкой времени виртуального процессора каждые 1 или 10 миллисекунд. Существует также функция sprofil().

Проверьте также LD_PRELOAD =/lib/libpcprofile.so PCPROFILE_OUTPUT = output.file - но я не знаю, работает ли он или как работает

Для нумерованных вопросов:

2) "Callgrind - это расширение для Cachegrind. Он предоставляет всю информацию, которую делает Cachegrind, а также дополнительную информацию о callgraphs". - Таким образом, он может предоставить любой материал, который находится в cachegrind, но также позволяет пользователю отключить симуляцию кэша: --simulate-cache=no (это значение по умолчанию)

Для скорости: согласно http://www.valgrind.org/docs/manual/nl-manual.html - руководство по инструменту Nul valgrind (aka nulgrind), которое не требует дополнительных инструментов, замедление составляет 5 раз. Это потому, что программа динамически переводится самой valgrind. Таким образом, не может быть никакого инструмента для valgrind, который может работать быстрее, чем nulgrind.

Ответ 2

Вы пробовали gprof? У него нет больших накладных расходов, как это делает valgrind.

Ответ 3

Попробуйте использовать Zoom из RotateRight. Он имеет конфигурацию "Время потока", которая отображает все потоки в одном процессе независимо от того, запущены или заблокированы ли они.