全球数字财富领导者

微软首款5nm自研芯片Maia亮相----能和H100掰手腕

2023-11-16 23:02:16
金色财经
金色财经
关注
0
0
获赞
粉丝
喜欢 0 0收藏举报
— 分享 —
摘要:在大模型时代,微软迈出了自己坚实的一步

已经坐拥OpenAI的微软显然不满足于此,昨晚一场发布会,首款5nm自研芯片Maia正式亮相;同时Bing Chat也更名Copilot,甚至万物皆可Copilot;登录微软账号,就可以在Copilot专属网站上免费使用GPT-4、DALL·E 3。

OpenAI的全新王炸爆款,自定义GPT也被塞进Copilot全家桶,变身为Copilot Studio。全球打工人利器Office,也在Copilot的加持下全面升级。

vdQKMNXKQJTMEOBHgkIz37kmVMsonUfe12FFpOeH.jpeg

一、微软自研芯片

此前的江湖上,关于微软在悄悄自研芯片的传言始终不绝于耳。上个月初爆料的消息显示其代号“雅典娜”,用于训练大模型,微软想以此避免对英伟达过度依赖。

现在证实了,传言不是空穴来风。今年的AIGC与大模型热潮让H100的需求也水涨船高,目前H100的单价普遍在2.5万到4万美元之间,之前也曾多次提及。这块蛋糕之大肉眼可见,微软绝对不会置之不理。微软CEO纳德拉在发布会上表示,两款芯片Azure Maia和Azure Cobalt CPU明年就会上市。

虽然对比亚马逊、谷歌、Meta等巨头,微软是最后一个发布自研芯片的,但一亮相就毫不含糊,这次的Maia 100 GPU对比业内竞品毫不逊色。具体说来,Maia采用的是台积电5nm节点工艺,拥有1050亿个晶体管并支持微软首次实现的8位以下数据类型,即MX数据类型。在算力方面,Maia在MXInt8格式下的算力可以达到1600 TFLOPS,在MXFP4格式下则为3200 TFLOPS,足够与英伟达的H100和AMD的MI300X掰手腕。Maia在网络IO方面相当优秀,而在显存带宽方面则稍逊一筹。与目前使用第二代Trainium/Inferentia2芯片的亚马逊相比,纸面上的各项指标都堪称碾压式领先。

不过Maia是在LLM热潮出现之前就开始设计的,因此显存带宽只有1.6TB/s。虽然比Trainium/Inferentia2高,但明显低于TPUv5,更不用说H100和MI300X了。此外,微软采用了四层HBM工艺,而非是英伟达的六层,甚至AMD的八层。根据一些业内人士分析,微软在设计芯片时加载了大量的SRAM,从而帮助减少所需的显存带宽,但这似乎并不适用于现在的大模型,因此实际效果目前还不好说。

Maia的另一个有趣之处在于微软对网络的处理就AMD和英伟达而言,它们都有自己专属的Infinity Fabric和NVLink,用于小范围芯片的高速连接(通常为八个)。如果要将数以万计的GPU连接在一起,则需要将以太网/InfiniBand的PCIe网卡外接。对此,微软采取了完全不同的方式每个芯片都有自己的内置RDMA以太网IO。这样每个芯片的IO总量就达到了4.8Tbps,一举超过了英伟达和AMD。同时为了充分发挥Maia的性能,微软专门打造了名为“Ares”的机架和集群,并首次采用了名为“Sidekick”的全液冷设计。这些机架是为Maia高度定制的,比标准的机架更宽。

具体来说,微软在一个机架上搭载了八台服务器,其中每台服务器有四个Maia加速器,也就是共计32个Maia芯片。此外还配备网络交换机,而且Maia机架的功率可以达到约40KW,这比大多数仍只支持约12KW机架的传统数据中心也要大得多。

8gXik0OaJklI6zNGCEuXhXgPdwg3ECA6qCsz0Hn8.jpeg

还有点需要说明的是,微软使用的是自己从第三方获得SerDes授权,并直接向台积电提交设计要求,而不是依赖Broadcom或Marvell这样的后端合作伙伴。在发布会进行的同时,OpenAI的CEO奥尔特曼就表示,第一次看到Maia芯片的设计时,自己和同事都感到非常兴奋,而OpenAI也在第一时间就用GPT-3.5 Turbo对Maia进行了测试与改进。

而在CPU方面,Cobalt是一款基于Armv9架构的云原生芯片,针对通用工作负载的性能、功率和成本效益进行了优化。具体来说,Cobalt共有128个核心,并支持12条DDR5通道。与微软第一款基于Neoverse N1的Arm CPU相比,基于Neoverse N2的Cobalt 100在性能上提升了40%。

与Arm传统的只授权IP的商业模式不同,Neoverse Genesis CSS(计算子系统)平台可以使CPU的开发更快更容易,且成本也更低。就Cobalt而言,微软采用的是两个Genesis计算子系统,并将它们连接成一个CPU。

5yWLbkC1K5XzycAsxgdeROw72dZHQ7BLTyvIvuPk.png

Arm此前曾表示,有一个芯片项目从启动到完工前后只用了一年多。虽然没有说究竟是谁,不过根据业内人士推测很可能就是微软。可以说,微软Maia芯片上了许多心思。在设计上的独具匠心不仅让Maia具有高性能,还能控制每个内核和每个虚拟机的性能和功耗。目前微软正在Microsoft Teams和SQL Server等工作负载上测试Cobalt,预计明年正式向客户提供用于各种工作负载的虚拟机。

事实上很多人都不了解的一点,微软在芯片开发上的历史颇为悠久。二十多年前,微软就和Xbox合作,还为Surface设备共同设计了芯片。2017年左右,微软就开始构建云硬件堆栈。这次发布的新品Maia芯片和Cobalt都是在微软内部构建的,微软对整个云服务器堆栈进行了深入检修,以优化性能,功耗和成本。微软硬件系统负责人Rani Borkar(拉妮·博卡尔)对此表示:我们正在重新思考AI时代的云基础设施,并从尽可能优化该基础设施的每一层。

现在可以明确的一点,微软、AMD、Arm、Meta、英特尔、英伟达和高通在内的集团,都在推动大模型时代的数据格式的标准化进程。

7FcLa5hOetAbGfuLutQ4ejVkvFTf6qQGCWHMR1r1.jpeg
 

二、万物皆可Copilot

与两款芯片同步的,微软Copilot也迎来了全新时代。就在发布会现场,纳德拉宣布Bing Chat的普通版和企业版正式更名为Copilot。除了自家的Edge,Copilot还可以兼容Chrome,Safari等,并且很快就上线移动设备。Copilot免费版可以在Bing和Windows中直接访问,还有专门入口https://copilot.microsoft.com/

今年初,微软还曾多次提到要与谷歌在搜索和AI领域保持竞争。但现在回看,微软显然是醉翁之意不在酒,悄无声息的就把目光投向了ChatGPT。就在OpenAI宣布每周有一亿人使用ChatGPT后,Bing Chat直接改名。这不得不让外界猜想,尽管有价值数十亿美元的合作关系,双方关系也相当好,但微软和OpenAI仍在争夺同一批客户,而Copilot就是微软试图抛给消费者和企业的最佳选择。同时发布会上还发布了一款低代码工具Copilot Studio,允许用户可以在同一网页上进行构建、部署、分析、管理内容。

更重量级的是,Copilot Studio与OpenAI的GPTs无缝集成。与之配套的还有一个可供分析的仪表板,允许管理员集中监视使用情况并实时分析,在管理中心内控制访问权限。微软还将Dynamics 365 Guides也集成到了Copilot,将AIGC与混合现实(MR)相结合,帮助一线员工完成复杂的任务。未来工程师无需搜索大量文档或纸质手册,仅通过自然语言和手势就能查询信息。

三、微软:我们和英伟达是互补

对于芯片来说,最重要的就是性能。跟英伟达的H100、H200,AMD的MI300X比较,Maia表现如何呢?对此问题,博卡尔没有正面回应,只是重申微软与英伟达AMD的合作对于自家Azure业务的未来很重要。

需要提前说明的是,微软所做的内存权衡其实是非常不利的,这使得微软很难与英伟达竞争。比如H100的内存带宽是Maia的两倍多,H200是其三倍,而MI300X还要更高。因此,Maia在大模型推理方面的性能劣势明显。就每秒处理更大批的token而言,GPT-4推理的性能大约是H100的1/3。不过这本身并不是一个大问题,因为制造成本与英伟达的巨大利润率弥补了大部分差距。问题是电源和散热仍需要更多成本,而且token到token的延迟更差。

在聊天AI和许多协同Copliot工具等对延迟极为敏感的应用中,Maia很难与英伟达和AMD竞争。后两种GPU都可以使用更大的批处理量,同时可接受延迟,因此它们的利用率会更高,性能TCO也比Maia高得多。而在GPT-3.5 Turbo等参数较小的大模型中,情况可能要好一些。但微软不可能只部署针对过去产品的优化硬件。随着时间的推移,GPT-3.5 Turbo迟早要被逐步淘汰。

不仅在硬件上强强联合,微软在发布会上还宣布将英伟达AI代工厂服务(Nvidia AI Foundry)引入Azure。此外微软还推出了全链条开发工具Azure AI Studio,它提供了完整周期的工具链,是一个端到端的平台,包括模型的开发、训练、评估、部署、定制等等。

来源:金色财经

敬告读者:本文为转载发布,不代表本网站赞同其观点和对其真实性负责。FX168财经仅提供信息发布平台,文章或有细微删改。
go