Транспонирование матрицы 8x8 может быть достигнуто путем создания четырех матриц 4x4 и переноса каждого из них. Это не то, чего я хочу.
В другом вопросе один ответ дал решение, для которого потребовалось бы всего 24 инструкций для матрицы 8x8. Однако это не относится к поплавкам.
Поскольку AVX2 содержит регистры из 256 бит, каждый регистр будет соответствовать восьми 32-битным целым числам (поплавкам). Но возникает вопрос:
Как перенести поплавковую матрицу 8x8 с помощью AVX/AVX2 с минимальными инструкциями?