首选当然是AMD和英特尔,前者本身就有AI加速卡的业务,集CPU和GPU设计能力与一身,而后者呢,作为x86架构的奠基人,如今也涉足AI加速卡领域,可以见到它们所推出的产品不仅在参数上对标英伟达,还在定位与售价等方面发动了一轮又一轮的攻势。
而英伟达的客户与博通和Marvell组成统一战线后,也成了它的对手,不断推陈出新的自研定制芯片,开始取代传统的通用AI加速卡,让英伟达感受到了另一种压力。
而在网络领域,英伟达也迎来了自己的对手。
01 英伟达独占AI网络
进入21世纪以来,随着云计算、大数据的日益普及,数据中心得到了快速发展。而InfiniBand在其中发挥了很大的作用,尤其是从2023年开始,以ChatGPT为代表的大型AI模型依赖于InfiniBand,让这一网络技术的关注度进一步提升。
众所周知,现代数字计算机自诞生以来就一直采用冯·诺依曼体系结构,该体系结构中有CPU(算术逻辑单元和控制单元)、内存(RAM、硬盘)和I/O(输入/输出)设备。20世纪90年代初,为了支持越来越多的外部设备,Intel率先在标准PC架构中引入了外围组件互连(PCI)总线设计。
随后,互联网进入快速发展阶段,在线业务和用户规模的不断增长对IT系统容量提出了巨大挑战。在摩尔定律的支持下,CPU、内存、硬盘等部件都在飞速进步,而PCI总线的更新换代速度却比较慢,大大限制了I/O性能,成为了整个系统的瓶颈。
为了解决这个问题,Intel、微软和SUN牵头制定了“下一代I/O(NGIO)”技术标准,而IBM、康柏和惠普则牵头制定了“未来I/O(FIO)”,并于1998年联合制定了PCI-X标准。
1999 年,FIO 开发者论坛和 NGIO 论坛合并成立了InfiniBand 贸易协会 (IBTA)。很快,在2000年,InfiniBand架构规范1.0版本正式发布。InfiniBand诞生的目的就是为了取代PCI总线,它引入了RDMA协议,提供更低的延迟、更高的带宽、更高的可靠性,从而实现更强大的I/O性能。
同样在1999年5月,几位从英特尔和伽利略科技公司出走的员工在以色列成立了一家叫Mellanox的芯片公司, Mellanox 成立后加入了 NGIO,后来 NGIO 与 FIO 合并,Mellanox 也加入了 InfiniBand阵营,并于 2001 年推出了第一款 InfiniBand 产品。
而随着英特尔转向PCI Express(PCIe),以及微软退出InfiniBand,该网络技术开始转向计算机集群互联的应用领域,而新成立的Mellanox开始走上舞台,逐渐成为InfiniBand发展过程中的中坚力量。
InfiniBand虽然同时被英特尔和微软放弃,但它在新的领域中找到了增长点。2012年以后,随着高性能计算(HPC)需求的不断增长,InfiniBand技术不断取得长足进步,市场份额不断提升。2015年,InfiniBand技术在TOP500榜单中的份额首次突破50%,达到51.4%(257个系统)。这标志着InfiniBand技术首次成功挑战以太网技术,成为超级计算机首选的内部互连技术。
而Mellanox也在不断成长:2010年,Mellanox与Voltaire合并,Mellanox和QLogic成为InfiniBand的主要供应商;2013年,Mellanox 进一步进军网络领域,收购硅光技术公司 Kotura 和并行光互连芯片制造商 IPtronics,进一步巩固其行业地位;到 2015 年,Mellanox 已占据全球 InfiniBand 市场80% 的份额。业务范围从芯片扩展到网卡、交换机/网关、远程通信系统、线缆和模块,成为世界级网络供应商。
随着AI的持续发展,InfiniBand的价值也日益显现,Mellanox也因其在该技术上近乎垄断的地位而成为厂商眼里的香饽饽。
为什么InfiniBand对于AI如此重要?对于AI超级计算机来说,我们可以把它看作一个由许多图形处理单元(GPUs)组成的集群,这些单元进行大量复杂的计算。此外,还有一些中央处理单元(CPUs)负责指挥计算机的操作,再加上一些DRAM芯片和NAND芯片,成本大约分配为:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。
但上述所有的芯片需要互相连接,这可以通过InfiniBand或以太网电缆来实现,也就是所谓的“网络”,它们占硬件成本的10-15%,而目的就是提供尽可能高的带宽,让数据能快速传输,倘若不能实现更高的带宽,那么无论在GPUs上花费多少成本,最后都会变得毫无意义。
英伟达作为AI领域最早的探索者之一,很敏锐地察觉到了这一点,同时决定将其关注点从游戏转向AI。2019 年,英伟达以69 亿美元收购 Mellanox,超过了竞争对手英特尔和微软的出价,后两者的出价分别为 60 亿美元和 55 亿美元,这笔数额庞大的收购,为英伟达进入网络技术市场铺平了道路。
当时英伟达的CEO黄仁勋解释称,收购Mellanox的原因是:“这是两家全球领先的高性能计算公司的合并,我们专注于加速计算,而Mellanox则专注于互连和存储。”
GPU和网络技术捆绑销售,听起来有点像强买强卖,但令许多人都未预料到的是,由黄仁勋所打造的这一模式迅速取得了成功。截至今年1月,英伟达的年收入翻了一番多,达到609亿美元,计算和网络部门的销售额增长了215%,占英伟达业务的78%。虽然英伟达的GPU部分引起了大量关注,但其网络业务也是成功的关键。在公司的最后一次财报电话会议上,黄仁勋表示,InfiniBand的收入同比增长了五倍,意味着其增长速度约为整个计算和网络业务的两倍。
英伟达将自身的 GPU 算力与 Mellanox 的网络技术相结合,打造出了一个强大的“计算引擎”,在计算基础设施方面,英伟达无疑占据着领先优势,
02 英伟达的大威胁
过去,业界一直在使用英伟达配套的 InfiniBand 网络解决方案来部署人工智能和机器学习技术,原因很简单,它是目前最成熟的支持大规模部署的网络技术,但InfiniBand并非完美,一方面由于收购,它变成了英伟达的独家产品,另一方面,它的成本昂贵,绝非普通企业可以轻松承担得起的。
英伟达的CEO黄仁勋曾调侃道,InfiniBand只占集群成本的20%,而它能将人工智能训练的性能提高20%,某种程度上已经收回了成本,因而InfiniBand实际上是免费的。但这样的论断显然是有失偏颇的,客户必须首先拿出集群成本的20%,才能真正榨取出集群的性能,这就意味着用120%的成本创造120%的性能。
相对比之下,基于以太网的集群通常只需要额外的10% 甚至更低的成本,尽管后者在性能上往往难以与InfiniBand匹敌,但它凭着自己的低廉价格也争取到了一部分用户。事实上,如今高性能网络的竞争,是InfiniBand与高速以太网的较量,资源充足的厂商会更倾向于选择InfiniBand,而注重性价比的厂商则可能倾向于高速以太网。
但这样的情况并非一成不变,即便是那些具备雄厚财力的大企业,也在寻找更廉价更合适的网络方案,英伟达与InfiniBand正在不断受到挑战。
2023年7月,Linux基金会宣布,将监督成立一个超级以太网联盟,该联盟的创始成员包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特尔、Meta 和微软的支持下,超以太网联盟表示将致力于改进以太网,以满足高性能计算和人工智能系统所需的低延迟和可扩展性要求。
该联盟创立的首要任务是定义和开发他们所称的超以太网传输(UET)协议,这是一种新的以太网传输层协议,能更好地满足人工智能和 HPC 工作负载的需求。
在高层次上,超以太网联盟希望以外科手术的方式完善以太网,只对实现目标所必需的部分进行改进和改动。从一开始,该联盟就着眼于改进以太网技术的软件层和物理层,但不改变其基本结构,以确保成本效益和互操作性。
联盟的技术目标包括开发规范、应用程序接口和源代码,以定义超以太网通信的协议、接口和数据结构。此外,联盟还致力于更新现有的链路和传输协议,创建新的遥测、信令、安全和拥塞机制,以更好地满足大型人工智能和高性能计算集群的需求。同时,由于人工智能和高性能计算工作负载有许多不同之处,UET 将为适当的部署提供单独的配置文件。
得益于这个超级以太网联盟,过去以太网运行 AI 工作负载的几个问题正在解决,也推动了以太网在传统 HPC 工作负载中的更广泛采用,这也让以太网网络公司找到了反攻InfiniBand的机会。
超级以太网联盟成员之一,以太网络公司Arista Networks在今年2月的财报电话会议中,其首席执行官Jayshree Ullal解释了InfiniBand和以太网之间的区别:“如你所知,从历史上看,当单独考虑InfiniBand和以太网时各有优势。传统上,InfiniBand被认为是无损的,而以太网被认为有一些损失特性。然而当你实际将一个完整的GPU集群连同光学设备等一同考虑,并查看所有数据包大小上的任务完成时间一致性时,数据——包括来自博通的第三方数据——显示在现实环境中比较这些技术,以太网的任务完成时间大约快10%。所以,你可以孤立地看待这些技术,也可以在实际集群中看待它们。而在实际集群中,我们已经看到以太网的改进。请记住,这只是我们今天所知的以太网。一旦我们有了超级以太网联盟和一些改进,比如数据包喷洒、动态负载平衡和拥塞控制,我相信这些数字会变得更好。”
“Arista声称其以太网在任务完成速度上比InfiniBand快约10%,这一点令我们感到意外,特别是考虑到InfiniBand在当前GPU集群中的深度渗透。”Jefferies分析师George Notter在会议后表示。
他指出,英伟达将GPUs与InfiniBand简单捆绑销售是该技术成功的关键原因,换句话说,InfiniBand受欢迎的部分原因是因为它与英伟达的GPU一起销售,但这现在GPU的积压订单减少了,使用InfiniBand的动机可能也会减少,这对Arista以及另一家以太网网络公司博通来说是个好消息。
“我们在四个主要的AI以太网集群中取得了进展,这些集群都是我们战胜InfiniBand的案例。在所有四个案例中,我们现在正从试验转向试点,每年连接数千个GPU,”Arista首席执行官Jayshree Ullal解释道。
Arista在上季度业绩表现也非常不错,截至3月的三个月中,Arista的收入同比增长了16%,每股收益增长了44%,分析师预计随着AI基础设施支出的增加,这一增长将会加速。Arista约40%的业务来自微软和Meta,这两家公司都宣布明年将再次增加资本支出。Jefferies分析师George Notter最近还将Arista的评级从持有上调至买入,他表示:“现在,部署基于GPU的基础设施(包括以太网)的热潮将会持久。”
Arista并不是唯一一家受益于“部署热潮”的网络公司。博通截至2月4日的三个月收入同比增长了34%,达到120亿美元,其中网络收入增长了46%,达到33亿美元。“这主要是由于我们的两个超大规模客户对AI加速器的强劲需求,”博通首席执行官Hock Tan在财报电话会议上解释道。
对网络硬件的需求比博通预期的还要快,“超大规模客户以及部署AI数据中心的大型企业的强劲需求”推动了这一增长。因此,博通将其网络业务的全年增长预期从30%上调至35%。整体而言,博通今年的收入预计为500亿美元,比去年增长40%。
国外媒体nextplatform提出了一个有趣的数学问题:Arista Networks 在 AI 集群互连销售中每赚取 7.5 亿美元,英伟达可能会损失 15 亿至 22.5 亿美元。在过去的 12 个月中,粗略估计英伟达在 InfiniBand 网络方面的销售额为 64.7 亿美元,而数据中心的 GPU 计算销售额为 397.8 亿美元,在四比一的分红率和稳定的市场条件下,英伟达可以保留约 13 亿美元,而超级以太网联盟可以保留 17 亿至 26 亿美元,如果一切保持不变,InfiniBand 的销售目标将达到 120 亿美元。
该媒体指出,超级以太网联盟的成员可以抢占的市场份额很大,但他们将通过从系统中移除收入来抢占,就像 Linux 对 Unix 所做的那样,而不是将收入从一种技术转换为另一种技术,其中节省下来的资金将重新投入到 GPU 中。
03 挑战英伟达
英伟达不止是在网络领域受到挑战,正如我们前文中提到的,它的最大依仗——GPU正在受到AMD、英特尔、博通等公司的围剿,尽管它坐拥3万亿美元市值,但依然会倍感压力。
在网络市场,Arista现在无疑还是非常弱小的一家公司,相较于英伟达InfiniBand动辄数十亿美元的营收,短期内它还难以挑战,但巨头们对于AI集群网络垄断的不满,让Arista获得快速发展的宝贵机会,假以时日,它很有可能成为英伟达新的心腹大患。
本文来自微信公众号“半导体行业观察”(ID:icbank),作者:邵逸琦,36氪经授权发布。
文章评论