Я тестирую Intel ADX добавляет с переносом и добавлением с переполнением в конвейерные добавляет большие целые числа. Я хотел бы посмотреть, как должно выглядеть ожидаемое поколение кода. Из _addcarry_u64 и _addcarryx_u64 с MSVC и ICC я думал, что это будет подходящий тестовый пример:
#include <stdint.h>
#include <x86intrin.h>
#include "immintrin.h"
int main(int argc, char* argv[])
{
#define MAX_ARRAY 100
uint8_t c1 = 0, c2 = 0;
uint64_t a[MAX_ARRAY]={0}, b[MAX_ARRAY]={0}, res[MAX_ARRAY];
for(unsigned int i=0; i< MAX_ARRAY; i++){
c1 = _addcarryx_u64(c1, res[i], a[i], (unsigned long long int*)&res[i]);
c2 = _addcarryx_u64(c2, res[i], b[i], (unsigned long long int*)&res[i]);
}
return 0;
}
Когда я рассмотрю сгенерированный код из GCC 6.1, используя -O3
и -madx
, он показывает сериализованный addc
. -O1
и -O2
дают похожие результаты:
main:
subq $688, %rsp
xorl %edi, %edi
xorl %esi, %esi
leaq -120(%rsp), %rdx
xorl %ecx, %ecx
leaq 680(%rsp), %r8
.L2:
movq (%rdx), %rax
addb $-1, %sil
adcq %rcx, %rax
setc %sil
addb $-1, %dil
adcq %rcx, %rax
setc %dil
movq %rax, (%rdx)
addq $8, %rdx
cmpq %r8, %rdx
jne .L2
xorl %eax, %eax
addq $688, %rsp
ret
Итак, я предполагаю, что тестовый пример не совсем ударил по знаку, или я делаю что-то неправильно, или я что-то неправильно использую,...
Если я правильно разбираю документы Intel на _addcarryx_u64
, я считаю, что код C должен генерировать конвейер. Поэтому я предполагаю, что я делаю что-то неправильно:
Описание
Добавить неподписанные 64-битные целые числа a и b с беззнаковым 8-разрядным переносом c_in (флаг переноса или переполнения) и сохранить 64-битный результат без знака, и выполнение в dst (флаг переноса или переполнения).
Как я могу сгенерировать добавление конвейера с переносом/добавлением с переполнением (adcx
/adox
)?
На самом деле я получил готовность к тестированию 5-го поколения Core i7 (обратите внимание на флаг adx
cpu):
$ cat /proc/cpuinfo | grep adx
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush
dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc
arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni
pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 fma cx16 xtpr pdcm pcid sse4_1
sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm
3dnowprefetch ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid fsgsbase
tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm rdseed adx smap xsaveopt
...