算对通信网络的需求大幅提升。2017年Google发布《Attention Is All You Need》,成为后续大模型架构基础,论文中提出的Transformer神经网络利用Self-attention自注意力机制实现并行处理。自此,人们意识到模型表现与其参数规模成正比,从Transformer的1亿参数量到Switch Transformer的1.6万亿参数量,参数和训练集规模不断刷新。大模型通过数据并行和模型并行辅助训练,计算节点较多,且节点之间需要高频进行中间计算结果的通信,为了提高GPU有效计算时间占比、避免网络延迟和带宽限制拖累AI训练效率,智算场景对通信性能提出了更高要求。 人工智能对通信网络需求包括超大规模组网需求、超高带宽需求、超低时延及抖动需求、超高稳定性需求、网络自动化部署需求。在人工智能大规模训练任务中,高效集群组网方案能够提升AI分布式训练的效率,所以智能计算对通信网络的规模、带宽、时延、稳定性和网络部署提出高要求,相较于传统的通用计算和超算有所提升。 三、InfiniBand和超以太简介 1. InfiniBand InfiniBand是服务器硬件平台的I/O标准,通过交换机在节点间的点对点通道进行数据传输,通道私有且受保护。InfiniBand拥有极高吞吐量和极低延迟,扩展性好,最高能扩展到具有数万个节点的集群。实际部署时,需要使用一整套符合InfiniBand标准的硬件设备。InfiniBand多应用于高性能计算集群、人工智能和超大规模基础设施,为大型企业或科研中心提供服务。 每一个InfiniBand体系结构(InfiniBand Architecture,即IBA)称为子网(Subnet),每个子网内最高可有65,536个节点(Node)。InfiniBand交换机用于子网范围内,跨子网需要使用路由器或网关系统。每个节点通过网卡连接至子网:使用主信号适配器(HCA)连接至CPU、内存;通过目标通道适配器(TCA)连接至I/O。 IBTA(InfiniBand Trade Association)于1999年成立,成立之初主要为了改良PCI总线升级慢、导致I/O性能限制系统发展的痛点,主要成员包括Cray、Emulex、HP、IBM、Intel、Mellanox、Microsoft、Oracle、QLogic。InfiniBand推出之初,IBM、SUN、HP、Dell等多家企业发布InfiniBand相关产品,Cisco、QLogic等公司也相继通过收购进入InfiniBand市场。而在2003-2004年间,多家InfiniBand企业退出市场,到2008年主要参与者仅剩Cisco、QLogic、Voltaire和Mellanox。后Cisco转向FCoE(Fibre Channel over Ethernet,以太网光纤通道)和10Gb以太网;Intel收购QLogic的InfiniBand交换机和适配器,后推出Omni-Path架构;Mellanox于2010年收购Voltaire。由此,InfiniBand市场形成Mellanox一枝独秀的局面。2019年,英伟达(Nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),成功收购了Mellanox。 IB市场上,主要是Nvidia(收购的Mellanox公司)和Intel(收购的Qlogic公司)两大玩家。IB虽然性能更好,但价格较贵。 2. 超以太 以太网是目前全球应用最广泛的局域网技术,由IEEE的802.3标准制定相关的技术标准。标准中包括了物理层的连接、电信号以及介质访问控制等内容。除了IEEE标准组织,还有以太网技术联盟(ETC)和超级以太网联盟(UEC)等组织也会发布相关标准。凭借着高可靠性、低成本、易于管理以及高速等优势,以太网技术广泛应用于自动化、自动驾驶、企业网和云计算等领域。 AMD等厂商共同组建超以太网联盟(Ultra Ethernet Consortium,UEC),旨在创建一个“基于以太网的完整通信堆栈架构”,用超以太网传输协议取代基于以太网的RoCE协议,提高网络吞吐量、降低延迟,增强网络的可靠性和稳定性,既保持了以太网的成本效益和普及性,又提供了超级计算互连所需的性能。 UEC分别从物理层、链路层、传输层、软件层四大方面改进以太网技术,近期又成立了存储、管理、兼容性&测试、性能&调试工作组,刚刚展开工作。 UEC旨在用一种新的超以太传输协议替代现有的RoCE协议,致力于改造以太网上的RDMA操作来优化AI和HPC工作负载。超以太传输协议和RoCE协议都属于RDMA协议是当今AI训练工作的基本组成部分,它允许CPU,GPU,TPU或其他加速器将数据直接从发送方的存储器传输到接收方的存储器。这种零拷贝方法可实现低延迟并避免操作系统开销。RoCE主要被设计用于传统数据中心环境,而UET协议支持多路径、分组喷射传输和高效的速率控制算法,这些特性使得UET特别适合于AI和HPC工作负载,能够为这些高负载应用提供更好的网络效能和效率,适用于高性能计算场景。此外在性能上向AI和HPC工作负载提供更加简单的的API,致力于提高网络利用率和降低尾部延迟,有利于加速RDMA操作。 最后,UEC通过智能RDMA、网络级负载均衡、优先级流量控制(PFC)、iLossless智能算法、ACC(Automatic ECN)和全生命周期自动管理等关键技术打造无损网络架构,解决丢包和重传问题,实现0丢包以太网。 3. InfiniBand VS. 超以太 超以太与InfiniBand作为两种用于AI和HPC领域的网络通信技术,各具特点,适用于不同应用场景。 在效应上,超以太网注重解决大规模部署中的性能和效率问题,而InfiniBand可能因端点间的一对一关系限制网络效率。目前,以太网和InfiniBand在支持大规模部署时都存在实际端点数量的限制,例如InfiniBand的尾延迟增加问题。 在生态上,超以太网以其开放标准促进了广泛的技术融合和不同制造商和设备间的联合创新,采取开放的方式寻求未来AI与HPC解决方案,而InfiniBand则与NVIDIAGPU共同形成了一个封闭但优化的性能高地。 在定位上,InfiniBand主要应用于高性能计算,追求高速率和可靠性,有物理地址限制。而以太网在推出目的是兼容性,面向更多终端设备互联,目前在全世界范围内应用广泛。 在成本上,基于InfiniBand的网络架构硬件供应商仅有英伟达,生态较为封闭,英伟达议价能力强;而基于以太网协议的网络架构有丰富的硬件供应商,下游客户采购时选择多,成本可控。 四、投资观点 UEC将以新形式进行传输层处理,在非无损网络的情况下也可实现以太网性能提升,较RDMA更灵活。基于UEC提供的功能,以太网将不会发生队头阻塞,可实现以最小的丢包控制到目标主机最终链路上的扇入,并能减少消息延迟,无需针对网络和工作负载调整拥塞算法参数,网络扩展性强,支持1,000,000个端点。华夏基金表示,UEC传输协议未来有望超越RoCE协议,力争对标InfiniBand性能,实现以太网在智算领域渗透率的提升。 UEC成立进一步增强网络设备端对AI和HPC大规模部署的灵活性,开放的生态与环境也有望催化对于解耦等需求较多的客户选择相应的解决方案,UEC成立进一步增强网络设备端对AI和HPC大规模部署的灵活性,开放的生态与环境有望催化对于解耦等需求较多的客户选择相应的解决方案。超以太联盟相关企业及网络侧交换机与光模块相关企业也有望受益。 相关产品: 5G通信ETF(515050)及其联接基金(008086/008087),指数成分股在光通信、光模块主题的暴露超30%,5G通信ETF跟踪中证5G通信主题指数,选取产品和业务与5G通信技术相关的上市公司股票作为样本股,捕捉通信技术革新带来的机遇。 人工智能 AIETF(515070)及其联接基金(008585/008586):中证人工智能主题指数(指数代码: 930713.CSI,指数简称: CS 人工智)选取为人工智能提供基础资源、技术以及应用支持的公司中选取代表性公司作为样本股,反映人工智能主题公司的整体表现。该指数已纳入截至 2018 年 9月 30 日的 IOSCO 金融基准原则鉴证报告范围。 云计算50 ETF(516630)及其联接基金(019868/019869):中证云计算与大数据主题指数(指数代码: 930851.CSI,指数简称: 云计算指数) 选取 50 只业务涉及提供云计算服务、大数据服务以及上述服务相关硬件设备的上市公司 A 股作为样本股,以反映云计算与大数据主题股票的整体表现。 以上内容与数据,与界面有连云频道立场无关,不构成投资建议。据此操作,风险自担。lg...