Уменьшение SSE поплавкового вектора

Как я могу получить элементы суммы (уменьшение) вектора float, используя sse intrinsics?

Простой серийный код:

void(float *input, float &result, unsigned int NumElems)
{
     result = 0;
     for(auto i=0; i<NumElems; ++i)
         result += input[i];
}

Ответ 1

Обычно вы генерируете 4 частичных суммы в своем цикле, а затем просто суммируете по горизонтали через 4 элемента после цикла, например.

#include <cassert>
#include <cstdint>
#include <emmintrin.h>

float vsum(const float *a, int n)
{
    float sum;
    __m128 vsum = _mm_set1_ps(0.0f);
    assert((n & 3) == 0);
    assert(((uintptr_t)a & 15) == 0);
    for (int i = 0; i < n; i += 4)
    {
        __m128 v = _mm_load_ps(&a[i]);
        vsum = _mm_add_ps(vsum, v);
    }
    vsum = _mm_hadd_ps(vsum, vsum);
    vsum = _mm_hadd_ps(vsum, vsum);
    _mm_store_ss(&sum, vsum);
    return sum;
}

Примечание: для приведенного выше примера a должен быть выровнен по 16 байт, а n должен быть кратным 4. Если выравнивание a не может быть гарантировано, используйте _mm_loadu_ps вместо _mm_load_ps. Если n не может быть кратным 4, добавьте в конец функции скалярную петлю в конце функции, чтобы скопировать все остальные элементы.