AI芯片为何需要更低的工作电压？电源纹波和噪声测试又该如何进行？_技术分析_技术方案

Sora也好，ChatGPT也好，大模型训练的背后是由高算力芯片所组成的大规模运算网络。meta等巨头一出手就是几十万个高算力芯片，近千亿的投资来建设数据中心。而作为终端的AI产品，比如AI PC，AI手机，AI汽车，AI智能家居，依赖的就是终端产品内的算力芯片。

图1: 典型的8xGPU算力系统

（图片来源：https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html ）

晶体管是芯片的基础组成单元，晶体管的数量越多，芯片的性能越强。各大芯片设计厂家和晶圆厂，就是想方设法在有限的空间里，通过更小的工艺尺寸(如3nm)，来堆积更多的晶体管。

图2：芯片的集成规模越来越高

晶体管工作的时候需要变化的电压，代表逻辑1和逻辑0，进而实现计算或控制。由于开关损耗、短路功耗和漏电功耗的存在，晶体管在工作的时候会消耗掉电源功率，产生热量。晶体管数量越来越庞大之后，散热这个很现实的问题就摆在芯片和系统设计师的面前。处理器芯片每平方厘米的面积上，就能产生300瓦的峰值功率，算下是150瓦/平方厘米，已经超过了典型的核反应堆的功率密度了。现在的数据中心很多都已经使用浸没式液冷来进行散热，把服务器和算力芯片浸没在绝缘的、导热性良好的液体里面，通过液体的流动快速带走热量，比传统的风扇散热效率更高，但这还远远不够。

图3：Chiplet封装示意图，存储单元可以多层堆叠而算力单元只能平铺

散热和工艺尺寸一样，是制约晶体管的密度和规模增加的难题之一。

解决散热的其中一个方案，就是从源头想办法，降低电压。使用更低的工作电压，将每一颗晶体管的功耗降下来，就可以堆叠更多的晶体管了。

早期的算力芯片工作电压是5V，慢慢演化到3.3V，1.8V，1.5V，到了今天，算力芯片和高速接口芯片的工作电压基本都在1V左右，甚至更低。这就对电源设计和测量提出了更高的要求。

低电压条件下电源纹波

和噪声的测试挑战

电源是算力芯片的能量来源，是逻辑状态的参考基准。如果电源的纹波和噪声过大，会给高速变化的逻辑信号上产生大量抖动，进而产生误码（注: 误码即错误的码元, 将逻辑1当成逻辑0, 或者将0当成1），影响芯片的性能，甚至导致芯片无法正常工作。高速信号验证中非常重要的随机抖动和低频的周期性抖动，就是由于电源的噪声和纹波所引入的。

图4：电源纹波和噪声

电源的纹波和噪声测量，一直都是电源工程师们最关注的问题之一。算力芯片更低的工作电压，导致电源留给纹波和噪声的裕度变得更小了，给设计和测试都带来了难题。

设计上，算力芯片普遍采用POL的降压方式，将DC-DC变压器尽可能靠近负载端，可以有效避免传输链路上引入的外部干扰。

测试上，使用更高精度、更低底噪的示波器，和专用的电源纹波探头，降低测量系统引入的噪声，才能更准确地测量电源纹波和噪声。

电源纹波和噪声测试解决方案

泰克的MSO6B系列示波器的底噪性能十分优异，底噪的有效值在20MHZ带宽下低至8.68uV，1G带宽下低至51.5uV，是准确测量电源纹波和噪声的优选之一。

如果电源电压是1V，示波器的底噪稍微高一点，裕量还有很大空间，是可行的吗？这里需要了解两个问题: