Может ли кто-нибудь привести пример или ссылку на пример, который использует __builtin_prefetch в GCC (или только инструкцию premetcht0 asm в целом), чтобы получить существенное преимущество в производительности? В частности, я хотел бы, чтобы этот пример отвечал следующим критериям:
- Это простой, маленький, автономный пример.
- Удаление команды
__builtin_prefetchприводит к ухудшению производительности. - Замена команды
__builtin_prefetchна соответствующий доступ к памяти приводит к ухудшению производительности.
То есть, я хочу, чтобы самый короткий пример, показывающий __builtin_prefetch выполнение оптимизации, которой не удалось управлять без нее.