У вас есть вектор из трех (или четырех) поплавков. Каков самый быстрый способ их суммирования?
Является ли SSE (movaps, shuffle, add, movd) всегда быстрее, чем x87? Нужны ли инструкции по горизонтальному добавлению в SSE4.2? Какова стоимость перехода на FPU, а затем faddp, faddp? Какая наиболее быстрая последовательность команд?
"Попробуйте упорядочить вещи, чтобы вы могли суммировать четыре вектора одновременно", не будет приниматься в качестве ответа.: -)