Sora也好,ChatGPT也好,大模型训练的背后是由高算力芯片所组成的大规模运算网络。meta等巨头一出手就是几十万个高算力芯片,近千亿的投资来建设数据中心。而作为终端的AI产品,比如AI PC,AI手机,AI汽车,AI智能家居,依赖的就是终端产品内的算力芯片。
图1: 典型的8xGPU算力系统
(图片来源:https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html )
晶体管是芯片的基础组成单元,晶体管的数量越多,芯片的性能越强。各大芯片设计厂家和晶圆厂,就是想方设法在有限的空间里,通过更小的工艺尺寸(如3nm),来堆积更多的晶体管。
图2:芯片的集成规模越来越高
晶体管工作的时候需要变化的电压,代表逻辑1和逻辑0,进而实现计算或控制。由于开关损耗、短路功耗和漏电功耗的存在,晶体管在工作的时候会消耗掉电源功率,产生热量。晶体管数量越来越庞大之后,散热这个很现实的问题就摆在芯片和系统设计师的面前。处理器芯片每平方厘米的面积上,就能产生300瓦的峰值功率,算下是150瓦/平方厘米,已经超过了典型的核反应堆的功率密度了。现在的数据中心很多都已经使用浸没式液冷来进行散热,把服务器和算力芯片浸没在绝缘的、导热性良好的液体里面,通过液体的流动快速带走热量,比传统的风扇散热效率更高,但这还远远不够。
图3:Chiplet封装示意图,存储单元可以多层堆叠而算力单元只能平铺
散热和工艺尺寸一样,是制约晶体管的密度和规模增加的难题之一。
解决散热的其中一个方案,就是从源头想办法,降低电压。使用更低的工作电压,将每一颗晶体管的功耗降下来,就可以堆叠更多的晶体管了。
早期的算力芯片工作电压是5V,慢慢演化到3.3V,1.8V,1.5V,到了今天,算力芯片和高速接口芯片的工作电压基本都在1V左右,甚至更低。这就对电源设计和测量提出了更高的要求。
低电压条件下电源纹波
和噪声的测试挑战
电源是算力芯片的能量来源,是逻辑状态的参考基准。如果电源的纹波和噪声过大,会给高速变化的逻辑信号上产生大量抖动,进而产生误码(注: 误码即错误的码元, 将逻辑1当成逻辑0, 或者将0当成1),影响芯片的性能,甚至导致芯片无法正常工作。高速信号验证中非常重要的随机抖动和低频的周期性抖动,就是由于电源的噪声和纹波所引入的。
图4:电源纹波和噪声
电源的纹波和噪声测量,一直都是电源工程师们最关注的问题之一。算力芯片更低的工作电压,导致电源留给纹波和噪声的裕度变得更小了,给设计和测试都带来了难题。
设计上,算力芯片普遍采用POL的降压方式,将DC-DC变压器尽可能靠近负载端,可以有效避免传输链路上引入的外部干扰。
测试上,使用更高精度、更低底噪的示波器,和专用的电源纹波探头,降低测量系统引入的噪声,才能更准确地测量电源纹波和噪声。
电源纹波和噪声测试解决方案
泰克的MSO6B系列示波器的底噪性能十分优异,底噪的有效值在20MHZ带宽下低至8.68uV,1G带宽下低至51.5uV,是准确测量电源纹波和噪声的优选之一。
如果电源电压是1V,示波器的底噪稍微高一点,裕量还有很大空间,是可行的吗?这里需要了解两个问题: