Я хочу переместить регистры SSE/AVX кратным 32 битам влево или вправо при сдвиге в нулях.
Позвольте мне уточнить изменения, которые меня интересуют. Для SSE я хочу сделать следующие смены четырех 32-битных поплавков:
shift1_SSE: [1, 2, 3, 4] -> [0, 1, 2, 3]
shift2_SSE: [1, 2, 3, 4] -> [0, 0, 1, 2]
Для AVX я хочу сдвинуть следующие сдвиги:
shift1_AVX: [1, 2, 3, 4, 5, 6, 7, 8] -> [0, 1, 2, 3, 4, 5, 6, 7]
shift2_AVX: [1, 2, 3, 4, 5, 6, 7, 8] -> [0, 0, 1, 2, 3, 4, 5, 6]
shift3_AVX: [1, 2, 3, 4 ,5 ,6, 7, 8] -> [0, 0, 0, 0, 1, 2, 3, 4]
Для SSE я придумал следующий код
shift1_SSE = _mm_castsi128_ps(_mm_slli_si128(_mm_castps_si128(x), 4));
shift2_SSE = _mm_shuffle_ps(_mm_setzero_ps(), x, 0x40);
//shift2_SSE = _mm_castsi128_ps(_mm_slli_si128(_mm_castps_si128(x), 8));
Есть ли лучший способ сделать это с помощью SSE?
Для AVX я придумал следующий код, который нуждается в AVX2 (и он не тестировался). Изменить (как объяснил Paul R, этот код не будет работать).
shift1_AVX2 =_mm256_castsi256_ps(_mm256_slli_si256(_mm256_castps_si256(x), 4)));
shift2_AVX2 =_mm256_castsi256_ps(_mm256_slli_si256(_mm256_castps_si256(x), 8)));
shift3_AVX2 =_mm256_castsi256_ps(_mm256_slli_si256(_mm256_castps_si256(x), 12)));
Как я могу сделать это лучше всего с AVX не AVX2 (например, с помощью _mm256_permute
или _mm256_shuffle`)? Есть ли лучший способ сделать это с помощью AVX2?
Edit:
Пол R сообщил мне, что мой код AVX2 не будет работать и что код AVX, вероятно, не стоит. Вместо этого для AVX2 я должен использовать _mm256_permutevar8x32_ps
вместе с _mm256_and_ps
. У меня нет системы с AVX2 (Haswell), поэтому это трудно проверить.
Изменить:
На основе ответа Felix Wyss я придумал некоторые решения для AVX, для которых требуется только 3 интригники для shift1_AVX и shift2_AVX и только одна встроенная для shift3_AVX. Это связано с тем, что _mm256_permutef128Ps
имеет функцию обнуления.
shift1_AVX
__m256 t0 = _mm256_permute_ps(x, _MM_SHUFFLE(2, 1, 0, 3));
__m256 t1 = _mm256_permute2f128_ps(t0, t0, 41);
__m256 y = _mm256_blend_ps(t0, t1, 0x11);
shift2_AVX
__m256 t0 = _mm256_permute_ps(x, _MM_SHUFFLE(1, 0, 3, 2));
__m256 t1 = _mm256_permute2f128_ps(t0, t0, 41);
__m256 y = _mm256_blend_ps(t0, t1, 0x33);
shift3_AVX
x = _mm256_permute2f128_ps(x, x, 41);