В Intel intrinsics webapp несколько операций, похоже, ухудшились от Sandy Bridge до Haswell. Например, многие операции ввода, такие как _mm256_insertf128_si256, показывают таблицу затрат следующим образом:
Performance
Architecture Latency Throughput
Haswell 3 -
Ivy Bridge 1 -
Sandy Bridge 1 -
Я нашел эту разницу загадочной. Разве это отличие, потому что есть новые инструкции, которые заменяют эти или что-то, что компенсирует это (какие)? Кто-нибудь знает, изменит ли Skylake эту модель?