В Intel intrinsics webapp несколько операций, похоже, ухудшились от Sandy Bridge до Haswell. Например, многие операции ввода, такие как _mm256_insertf128_si256, показывают таблицу затрат следующим образом:
   Performance
 Architecture   Latency   Throughput
 Haswell        3         -
 Ivy Bridge     1         - 
 Sandy Bridge   1         - 
Я нашел эту разницу загадочной. Разве это отличие, потому что есть новые инструкции, которые заменяют эти или что-то, что компенсирует это (какие)? Кто-нибудь знает, изменит ли Skylake эту модель?
