В настоящее время я пишу некоторый код, предназначенный для предсказываемых Intel версий AVX-512 SIMD, поддерживающих 512-битные операции.
Теперь предположим, что матрица представлена 16 SIMD-регистрами, каждая из которых содержит 16 32-битных целых чисел (соответствует строке), как я могу перенести матрицу с помощью чисто SIMD-команд?
Уже существуют решения для переноса матриц 4x4 или 8x8 с SSE и AVX2 соответственно. Но я не мог понять, как расширить его до 16x16 с помощью AVX-512.
Любые идеи?