CUDA一直是英伟达坚实的护城河。哪怕在同行有能力研发出AI芯片的时候,这个软件及其巨大的生态也是英伟达的宝藏。但是,有外国分析师认为,AMD的ROCm软件或许能成为其对抗英伟达的武器!
作者:Nexus Research
随着人工智能革命如火如荼,AMD正在努力证明,在人工智能竞赛中,可以有不止一个赢家。虽然英伟达凭借其业界领先的人工智能芯片已被证明是明显的领导者,但AMD自己的人工智能芯片“MI300”也实现了显着的销售增长。尽管提供尖端芯片只是增长故事的一部分,但AMD挑战英伟达主导地位的真正武器在于其软件。
考虑到高管们对即将推出的人工智能芯片缺乏特点,以及该公司在挑战英伟达的“CUDA”软件护城河方面面临的艰难战斗,AMD被认为在人工智能竞赛中落后。
然而,在上一次盈利发布中,AMD的高管向投资者保证了对其"Instinct" AI加速器系列的强劲需求,甚至提高了数据中心AI GPU的营收指引。更重要的是,CEO苏姿丰提供了有关他们ROCm软件层进展的见解。这或许是一个大杀器。
不过,在上一份财报中,AMD高管向投资者保证,其“Instinct”人工智能加速器系列的需求强劲,甚至提高了数据中心人工智能GPU的营收指引。更重要的是,CEO 苏姿丰对他们的ROCm软件层的进展发表了见解。
AMD利用AI革命
在2023年第四季度的财报电话会议上,CEO 苏姿丰将其数据中心人工智能芯片的销售收入指引从20亿美元提高到2024年的35亿美元,并分享了他们正在取得的进展:
“客户对MI300的反应非常积极。”
“我们的Instinct GPU的客户部署继续加速,MI300现在正在成为我们历史上任何产品中收入增长最快的产品,并且基于我们多代Instinct GPU路线图和开源ROCm软件战略的优势,我们将在未来几年占据重要份额。”
这种“开源ROCm软件战略”确实是AMD用来对抗英伟达的重要武器。
AMD的ROCm软件
让我们先来了解一下闭源软件和开源软件之间的区别。
英伟达流行的CUDA软件平台,用于优化其GPU的性能,是闭源的。
这意味着CUDA的源代码不是公开可访问的,并且被视为英伟达的知识产权。用户通常有使用该软件的许可,但不能修改它。另一方面,AMD的ROCm软件平台是开源的,这意味着源代码可以自由地供任何人检查、修改和分发。
虽然闭源和开源方法都允许第三方开发人员在这些平台上构建新的软件库和工具,但开源方法被认为允许更多的开发人员进行更大的协作,这要归功于其透明的性质,可能会导致更快地识别和实现创新想法。
然而,考虑到CUDA平台的成熟地位(自2006年以来就存在)和英伟达在GPU领域的领导地位,这家半导体巨头已经成功地围绕其闭源平台建立了一个繁荣的开发者社区。由于英伟达拥有数亿个GPU的庞大安装基础,它继续吸引越来越多的开发人员使用该平台,该公司透露,到2023年底,它拥有470万开发人员。
另一方面,AMD在2016年推出了ROCm软件平台,比英伟达的CUDA推出晚了十年,而且是开源的。然而,迄今为止,CUDA平台仍比ROCm平台大。
现在,闭源和开源软件都有各自的优点和缺点。但从数据中心客户的角度来看,CUDA闭源特性的最大缺点之一是它会导致“供应商锁定”。换句话说,由于软件库和工具只能与英伟达的GPU兼容,而与其他竞争对手的硬件的兼容性有限,客户变得高度依赖英伟达的软件和硬件。
这意味着这些数据中心客户在寻求从英伟达购买新芯片和其他硬件设备时,议价能力较弱,因为他们越来越多地与英伟达的软件生态系统联系在一起。
为了避免这种情况,数据中心客户努力使其供应商基础尽可能多样化。
AMD认识到客户对英伟达 CUDA平台的闭源特性产生“供应商锁定”风险的不满,因此将ROCm开源。开发人员和用户可以修改ROCm以针对不同的硬件架构进行优化,从而使该软件既可以兼容AMD的GPU,也可以兼容竞争对手的GPU,从而支持客户对供应商多样化的需求。
AMD正在积极地增强ROCm的功能,以服务于生成式人工智能工作负载。正如苏姿丰在2023年第四季度AMD财报电话会议上所分享的那样,该公司在鼓励大型数据中心客户以及新兴的人工智能公司采用AMD的GPU和ROCm软件来处理其人工智能工作负载方面取得了令人印象深刻的进展:
“ROCm 6的附加功能和优化,以及开源人工智能软件社区不断增长的贡献,使多个大型超大规模和企业客户能够在AMD Instinct加速器上快速提升他们最先进的大型语言模型。
例如,我们非常高兴地看到微软能够如此迅速地将GPT-4引入到MI300X的生产环境中,并推出与MI300X发布一致的新MI300实例的Azure私有预览版。与此同时,我们与人工智能社区领先的开放平台Hugging Face的合作,现在使数十万个人工智能模型能够在AMD GPU上开箱运行,我们正在将这种合作扩展到我们的其他平台。”
此外,Meta也是AMD“MI300X”的大客户,在其于2023年12月发布之际,Raymond James的分析师强调:
"Meta评论称,基于MI300X的OCP加速器实现了“有史以来最快的从设计到部署”,这表明AMD的软件正在快速成熟。"
因此,AMD在构建其ROCm软件平台方面取得了实质性进展,以提高其人工智能芯片的价值。
此外,值得注意的是,虽然ROCm的开源特性在理论上避免了对客户的供应商锁定,但由于ROCm的使用,仍然可能存在对AMD GPU的某种形式的依赖。
ROCm的核心开发团队来自AMD。这意味着针对ROCm的优化可能会优先考虑AMD硬件,这可能会在AMD GPU上带来更好的性能,而在其他供应商的GPU上可能会带来更低的效率。
ROCm软件在非AMD芯片上的性能将取决于开源软件社区开发的软件的质量。
虽然AMD将通过宣称其“开源”的性质,努力吸引数据中心客户使用其GPU和ROCm平台来处理人工智能工作负载,但我们可以谨慎地假设,AMD将通过优先考虑自己GPU的软件优化,努力将客户锁定在其生态系统中。
随着AMD逐步执行其硬件产品路线图,建立一个有粘性的软件生态系统对于实现对其人工智能芯片新高级版本的经常性需求至关重要。
事实上,在财报电话会议上,CEO 苏莉萨分享了一条非常重要的见解:
“我想说的是,我们现在的客户互动都是非常具有战略意义的,几十个客户进行了几代人的对话。所以,尽管我们对MI300的上升感到兴奋,坦率地说,2024年还有很多事情要做。我们也很高兴能有机会在接下来的几年里把这个项目延伸到25年、26年、27年的时间框架。所以,我认为,我们看到了很大的增长。”
换句话说,客户不仅在购买AMD的MI300,而且已经就AMD未来几代人工智能芯片的供应与该公司进行了接洽。苏姿丰还补充道:
“你可以放心,我们正在与客户密切合作,在未来几年里,我们将在培训和推理方面制定一个非常有竞争力的路线图。”
这些紧密的关系可能会延伸到ROCm软件平台的开发,以确保客户继续与AMD生态系统保持联系。而且,随着AMD人工智能芯片的价值主张在通过ROCm不断增加的训练/推理功能中不断增强,它应该会推动AMD推出下一代芯片的定价权。在解释该公司对数据中心人工智能GPU的市场规模估计为4000亿美元时,苏姿丰甚至暗示了这种不断增强的定价权,声称“平均销售价格(ASP)有所提升。”
最重要的一点是,AMD在构建ROCm平台以与英伟达的CUDA平台竞争方面取得了显著进展,并随后增强了其人工智能芯片的价值主张,以更好地与英伟达行业领先的GPU竞争。
AMD的风险
这场战斗变得越来越艰难:英伟达的开发者生态系统继续快速增长,该公司在2024年2月透露,到2023年底,CUDA软件的总下载量已累计达到4800万,开发者社区增长到470万。
早在2023年10月,英伟达就曾在一次投资者报告中表示,CUDA下载量为4500万次,开发人员为400万名。因此,英伟达的CUDA软件护城河继续快速加强。
另一方面,虽然AMDCEO苏姿丰鼓舞人心地谈到了围绕ROCm不断增长的软件社区,但该公司并没有透露任何统计数据来支持积极势头的说法,这表明它仍然远远落后于其主要竞争对手。
此外,英伟达遍布全球数据中心的数亿颗GPU的庞大安装基础,以及拥有数千万用户的完善的CUDA平台,为第三方开发人员创造了一个更具吸引力的市场,他们可以在该平台上构建自己的商业服务,帮助英伟达的GPU客户进行培训/推理工作负载,并产生可观的收入,以建立自己的长期业务。
因此,尽管AMD通过ROCm的“开源”软件战略来吸引尽可能多的开发者,但该公司仍在与英伟达不断增长的软件护城河进行艰苦的战斗。
客户生产自己的芯片和软件:像微软Azure这样的数据中心客户有自己的GPU和软件来运行人工智能训练和推理工作负载,并将越来越多地努力减少对第三方供应商的依赖。
因此,虽然令人鼓舞的是AMD的客户正在为ROCm的发展做出贡献,但同时也存在一个日益增长的风险,即这些客户优先考虑围绕自己的硬件开发软件生态系统。这可能会削弱AMD未来能够实现的销售增长水平。
$美国超微公司(AMD)$