超线程SMT究竟可以快多少?

Source

默认情况下是Intel I9,10核,每个核2个threads,共20个CPUs:

e672146aac2e9b6c9f0b0a76303d720a.png

下面编译内核:

9743b86aedb322aecff06bb53c6752cb.png

需要2分钟30秒左右。

再来一遍:

e54577182d11c483c9d8902e01e360c0.png

这说明make clean, drop_caches后时间也差不多。

现在我们关闭smt,只保留10个CPU:

426ae8d31ef8e3d7db471c680c9d16f1.png

具体的关闭方法就是:

sudo sh -c 'echo off > /sys/devices/system/cpu/smt/control'

这样只剩下10个CPU,下面来编译:

7be81983d2eb8e14c1aaa8cffe21d675.png

时间2分51秒,相对于2分30秒,速度下降仅仅14%。

这说明超线程SMT对性能的提升绝对没有达到100%,甚至都没有达到20%。

我们现在重新开启超线程:

sudo sh -c 'echo on > /sys/devices/system/cpu/smt/control'

看一下哪个CPU和哪个CPU是thread sibling:

e96be7f3eaa55017df76a191d9ed014f.png

看起来CPU0和CPU10是一对,CPU1和CPU11是一对,依次类推。

刚才我们关闭SMT是把CPU10-CPU19全关了,只留下每对里面的1个CPU,也就是留下了CPU0-CPU9。

在开启SMT的时候(假设蓝色和红色是一个CORE里面的两个CPU):

55bd6323f8b609e0dc0094f9ad45fa7f.png

在关闭SMT的时候,等于每对里面只留1个CPU:

f0a915deff852abc83e7cfe7dce15774.png

现在我们换一种关法,一对对关,只留下五对:

2ff09fe7ac9c40a36ce0e1ce32921f0a.png

指令如下:

7bc8f72302024f9d2f04f27fe05d2722.png

实现效果如下:

8e97f9fc5325e1edc3c163ed47f99f02.png

再重新编译内核:

53cf972f19cb68eaa91da30f6a944cdb.png

现在耗时是3分10秒,想对于所有CPU全开,下降27%。相对于每个core里面只关一个线程,下降12%。

这就比较神奇了?为什么我关了5个core,性能没有下降100%呢?这至少说明一个问题,从5core到10core,Intel I9编译内核性能并没有线性地scale。只是从3分10秒,提升到2分30秒。

这到底是为什么?「元芳,你怎么看?」