Я хотел бы горизонтально суммировать компоненты вектора __m256
, используя команды AVX.
В SSE я мог бы использовать
_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);
чтобы получить результат в первой компоненте вектора, но это не масштабируется с 256-битной версией функции (_mm256_hadd_ps
).
Каков наилучший способ вычисления горизонтальной суммы вектора __m256
?