Предположим, что я использую AVX2 VGATHERDPS - это должно загружать 8 одноточечных поплавков с использованием 8 индексов DWORD.
Что происходит, когда загружаемые данные существуют в разных строках кэша? Является ли инструкция реализована как аппаратный цикл, который извлекает строки кэша один за другим? Или, может ли он одновременно загрузить нагрузку на несколько строк кэша?
Я прочитал пару статей, в которых говорится о первом (и о том, что имеет для меня больше смысла), но я хотел бы узнать об этом немного подробнее.
Ссылка на один документ: http://arxiv.org/pdf/1401.7494.pdf