clock_gettime如何在NUMA上运行?

我在“Intel(R)Xeon(R)CPU E5-2650 v2 @ 2.60GHz”上有一个数据包处理代码,它有两个8核CPU . 它使用clock_gettime()为每个接收到的数据包加时间戳 .

如果我使用(numactl --physcpubind)在CPU 0上的任何核心上运行它,它每秒可以处理6百万个数据包,但如果我只是评论clock_gettime()它可以运行14Mpps . 当我在CPU 1的内核上运行程序时,我没有看到这种效果,它可以处理带有或不带有clock_gettime的14Mpps .

细节:

  • 我使用clock_gettime(CLOCK_REALTIME,&ts);其中ts是局部变量

  • Ubuntu 14.04.1,3.13.0-35-generic

  • gcc(Ubuntu 4.8.2-19ubuntu1)4.8.2

  • 我使用-g -O2 -lrt -lpthread进行编译

  • NIC的一个接收队列 . 无论NIC队列的核心亲缘关系如何,都会发生此模式 .

  • CPU标志是:fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm ida arat xsaveopt pln pts dtherm tpr_shadow vnmi flexpriority ept vpid fsgsbase smep erms

  • 超线程已禁用

  • 网卡:X520-T2 10G链接