Я хотел бы горизонтально суммировать компоненты вектора __m256, используя команды AVX.
В SSE я мог бы использовать
_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);
чтобы получить результат в первой компоненте вектора, но это не масштабируется с 256-битной версией функции (_mm256_hadd_ps).
Каков наилучший способ вычисления горизонтальной суммы вектора __m256?