英伟达200亿美元“押注”背后的深意

芯东西（公众号：aichip001）

作者 | ZeR0

编辑 | 漠影

200亿美元。

这是英伟达买下AI芯片独角兽Groq团队和非独家技术授权后，最先被市场记住的数字。它超过了此前英伟达任何一笔并购交易的金额。

Groq主攻的是其特有的LPU芯片技术，一种用软件定义硬件的可重构数据流架构，加之Groq由谷歌TPU初始研发团队创办，于是也被一些业内人士称作“进阶版TPU”。

经过多天发酵，此事的核心关注点已经转移。英伟达的选择，使「非GPU」赛道新型技术路径受到高度关注。类似技术路线的代表企业，还包括Intel正在收购的美国的SambaNova、刚刚完成数十亿融资的中国的清微智能等。

在公司主体未被收购的前提下，200亿美元这个天价数字值得被反复咀嚼：

英伟达究竟在为一种怎样的技术能力付费？

一、花掉近1/3现金储备，英伟达在下一盘多大的棋？

答案是AI推理。

在对外表态保持克制的同时，英伟达CEO黄仁勋发送了一封致员工邮件。邮件后来被媒体获取，其中明确提到，英伟达计划将Groq的低延迟处理器集成进NVIDIA AI Factory架构，服务于更广泛的AI推理与实时工作负载。

随着模型进入规模化部署阶段，AI算力消耗形态发生变化。服务于大量终端用户的推理请求持续膨胀，对并行吞吐能力提出更高要求，延迟是否稳定、能效是否可控、单位算力能承载多少并发，逐渐成为影响整体成本的关键因素。

展开全文

擅长并行计算但具有高能耗特点的GPU，未必是满足长期推理需求的最佳高效路线。

在英伟达接洽前，Groq并没有寻求出售，刚刚完成多轮数亿美元融资。交易额达200亿美元的消息，最早来自其主要投资方Disruptive。该机构CEO Alex Davis透露。

英伟达预计2025年年底现金储备可能超过700亿美元。斥资200亿美元收购Groq的人才和技术授权，相当于要花掉接近1/3的现金储备。

那么英伟达为何如此看好Groq团队？

这得益于Groq手里的三张王牌：沙特市场、大模型推理、可重构架构。

在推理战场，英伟达对庞大的主权AI市场虎视眈眈，遍地土豪的沙特无疑是“必征之地”。而Groq在2025年2月宣布已获得来自沙特阿拉伯15亿美元的投资承诺，用于扩大基于LPU的AI推理基础设施。更早之前，Groq在2024年12月建成沙特阿拉伯最大的推理集群。

据外媒透露，被英伟达递出橄榄枝时，Groq并未处于出售压力之下。在2025年9月完成新一轮7.5亿美元融资后，Groq的投后估值达到约69亿美元，2025年营收目标为5亿美元，主要来自大模型推理服务和基础设施大单。

而这些核心业务的底层硬件，就是一种面向推理负载设计、采用可编程流式架构的新型LPU芯片。

二、弥补GPU短板，走出差异化技术路径

Groq将芯片设计重点放在极致的推理性能优化。资料显示，该芯片在int8精度下峰值算力达到750TOPS，运行万亿参数的月之暗面Kimi K2模型可实时生成token。

英伟达200亿美元“押注”背后的深意

这主要通过TSP架构、极致确定性、采用SRAM来实现。该芯片取消了指令分发、分支预测、缓存控制等硬件逻辑，编译器将每个执行步骤精确到最小执行周期，实现时钟级确定性。相比GPU通常采用的外部HBM，它采用的SRAM访问速度更快。

而它最核心TSP（Tensor Streaming Processor）架构，从底层芯片设计逻辑来看，就是一种软件定义硬件的可重构架构。

不同于遵循冯·诺依曼架构（指令驱动数据）的GPU，可重构数据流是一种支持芯片内部及芯片间的流水线式流程，无需等待计算或内存资源，可以弥补GPU架构的短板，已在持续运行的推理场景中体现出系统工程优势。

这可能就是英伟达选择通过技术和团队引入，将Groq经验嵌入自身平台的直接原因。

英伟达、英特尔陆续押注，以及后续可以预见的巨量研发投入，主流AI芯片三大技术流派至此形成：

GPU：擅长暴力并行计算，生态最强，是大模型训练和通用计算任务的首选，但做推理任务时难避高能耗的劣势。代表企业有英伟达、摩尔线程等。

ASIC/DSA：专用芯片、领域特定架构路线，硬件路径是固定的，专为AI运算的矩阵乘法极致优化，但在处理非矩阵类运算时性能会大幅下降。代表企业有谷歌、寒武纪、昆仑芯等。

可重构：根据数据流动态重构计算路径，能够适应多元化的算法，随时调整电路连接方式，相比GPU可大幅减少能耗，相比静态ASIC又保留了对模型演进的适配能力。代表企业有SambaNova、Groq以及清微智能等。

在可重构的实现方法上，Groq团队硬件逻辑是静态、固定的，全靠编译器来实现逻辑上的重构，这种方法会牺牲一定的通用性。

更经典的做法则是依靠硬件内部的可编程交换矩阵，来动态或半静态地改变处理单元之间的物理连接。这样一来，硬件就像会变身的“算力乐高”，能根据算法动态重构计算阵列和互连拓扑，实现更高的通用性。

此外，Groq的优势还在于“确定性”：基于AI推理任务步骤的可预测性，比如大模型是按顺序处理token，来通过软件提前规划“数据走哪条路、用多少时间、多芯片怎么配合”，硬件只需按图索骥，做到“指哪打哪、毫秒不差”。也正因如此，Groq在推理延时和吞吐上，能实现比GPU快5-18倍、能效比高10倍的突破，本质是通过软件提升了硬件利用率，让“每一分算力都用在刀刃上”。

如今Groq大部分成员归入英伟达，SambaNova屡传被英特尔洽谈收购。可重构作为第三大AI芯片主流赛道，已被国际芯片巨头们虎视眈眈。国产可重构AI芯片头部企业的清微智能，则已启动IPO筹备。

三、开启全新资本周期，国产AI芯片迎来第三种解法

2025年12月，清微智能宣布完成超20亿元C轮融资，并已启动上市筹备相关工作，目标打造国内“非GPU”新型架构芯片领域首个上市标杆企业。

当前，中国AI芯片市场呈现多元架构并起的格局，上市公司多为GPU或ASIC企业。清微智能作为全球最早实现可重构计算商用的企业之一，其IPO具有破局意义。

据悉，清微智能是国家集成电路产业投资基金唯一投资的新型架构算力芯片企业，并得到国开装备基金、京能集团、北创投、京国瑞等多家国资机构，以及蚂蚁集团、百度、商汤、兆易创新等产业投资方的持续支持。

在先进制程工艺受限的背景下，可重构芯片通过架构创新换取性能的国产替代方案，是中国实现算力自给的重要方向之一。而清微智能研发的芯片代表了目前中国在可重构计算领域的最前沿。

清微智能今年推出下一代芯片，性能还将大幅提升，其可重构数据流架构具备3D扩展的天然优势，能够与3D芯片、晶圆级芯片技术等前沿集成技术结合，形成清晰且可持续的升级迭代路径。

面向大规模扩展，为可重构架构设计的高效数据互连技术TSM-LINK支持多芯片点对点直连，能够实现数据高效传输，规避传统交换机架构存在的带宽瓶颈与通信延迟问题。

针对长期生态建设，清微智能持续推进软件栈适配与工具链建设，以降低开发与迁移成本。

中国拥有丰富的端侧AI应用场景，许多场景都对功能、延时极其敏感，这为可重构芯片提供了优质的练兵场。

清微智能可重构芯片2025年算力卡订单超过3万张，累计出货超过3000万颗，在全国十多座千卡规模智算中心实现规模化落地，对国内AI推理应用算力形成有力支撑。据IDC数据披露，清微智能可重构芯片的出货已跻身国内AI芯片第一梯队。

可重构芯片凭借高能效优势，既符合低碳目标的国情所需，又能够消解单一架构遇阻的风险。此类企业走向IPO，将有助于鼓励更多企业探索底层创新技术，为国家算力主权发展出更多条可持续发展的生命线。