全球数字财富领导者
CoNET
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
香港论坛
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
Web3中文|从Web3看互联网的过去 现在和未来
go
lg
...
t、HTML5和CSS3。而机器学习、
深度
学习
、语义网和去中心化技术为Web3发展提供动力。 应用 Web2应用包括播客、博客、视频软件等,Web3则是结合了人工智能和机器学习驱动的dApp、虚拟世界和3D门户。 交易货币 Web2上的付款以法定货币进行,Web3将同时使用虚拟资产进行交易。 Web3有什么好处? 去中心化 Web3的去中心化结构是它对用户的主要优势。由于公共分布式账本,Web3具有改善企业运营的潜力。这将赋予用户和个人更多权力,像谷歌和Meta这样的拥有大量用户数据的庞大公司或将面临转变。 隐私安全 Web3将优先考虑安全和隐私,而不是监视和控制,用户将完全控制他们的数据,他们可以选择共享或保密信息。鉴于区块链技术及其自治结构,Web3也将比以前的互联网版本更安全。在去中心化系统中,黑客攻击仍然是存在的,但黑客会发现攻击网络变得更为困难,他们的活动会被记录下来。 连通性 由于语义内容,数据与Web3密切相关,从而改善用户体验,将连通性提升到一个新的水平。用户可以利用语义技术创建在线数据存储库、定义词汇表和建立数据处理规则,内容和信息将可以在全球范围内通过各种应用程序访问,并且越来越多的计算机设备参与到我们的日常生活中。 Web3的关键应用 通过区块链构成其中央基础设施,Web3可以扩展到新的应用程序和服务范围,DeFi、跨链桥和DAO等将是Web3的关键应用。 DeFi(去中心化金融) 以去中心化为核心,Web3也可以用于去中心化银行业务,这与传统的中心化市场有很大不同。 Cross-chain bridges(跨链桥) 在Web3中,由于区块链众多,跨链技术提供了各种区块链之间的连接。 DAO(去中心化自治组织) DAO将是Web3的特点之一。DAO是项目筹集和支出资金的去中心化自治组织,所有决定均由董事会成员投票表决,并通过区块链上的编码规则执行。 图源:网络 Web3到来了吗? 现在的互联网建立在服务器之上,数据存储在云中的某个服务器或服务器集群中,Web3将打破这种模式,从一台服务器转移到许多不同的、分散的服务器。 但人们在对去中心化的互联网感到兴奋的同时,也存在质疑。互联网初心,即自由、平等、开放,还有DIY和草根精神,现在的巨头产品已经很大满足了大家对于便利、高效、沉浸、免费的需求。Web3的产品能不能进一步满足这些用户?从目前发展来看还不能,Web3还处于一个非常早期的阶段。 并且,去中心化意味着将是一个完全靠个人能力承担风险的账户体系,一旦私钥丢失,你的账号就丢了,没有公司会负责或者帮你找回。现在的网民是否有能力保管好自己的信息?或者目前Web3有完善的、可信赖账户管理系统吗?在诸多质疑之下,更多人还是会选择中心化公司管理自己的账户信息。 除了质疑,Web3也存在很多的反对声音。例如,当Discord的CEO提出一项可以将应用程序连接到加密钱包的功能时,面临用户的强烈反对,并且不得不澄清没有继续推出该功能的计划。当英国的世界自然基金会(WWF)分支机构试图转向区块链时,因其巨大的碳足迹而受到严厉批评,并被迫撤回该功能。 Web3凝聚着人们对互联网现状的反感、反思和反抗,但其才刚刚起步,会面临很多问题,新事物的出现总是会伴随着人们的好奇、探索、质疑与批评。 随着越来越多人关注Web3,我们相信互联网将很快迎来下一次重大升级。区块链技术,数字化经济,元宇宙,NFT,DeFi,VR/AR,大数据,AI,仿生学,生物学,加密学,硬件设备,新能源等等技术,都将迎来高度的发展和提升。 参考: Spiceworks《Web 2 vs. Web 3: What’s the Difference and Why It Matters》 Thecoinrepublic《Web 1, Web 2 ,Web 3: The Much Needed Inventions 》 Analyticsinsight《Web2 vs Web3: What is the Difference and the Significance?》 黄锫坚《Web3凝聚着新人类对互联网现状的反感、反思和反抗》 编辑:Bowen@Web3CN.Pro 声明:web3中文编辑作品,内容仅代表作者立场,且不构成投资建议,请谨慎对待,如文章/素材有侵权,请联系官方客服处理。 来源:金色财经
lg
...
金色财经
2023-02-23
百度2022Q4业绩电话会议分析师问答
go
lg
...
场。 此外,Ernie 所基于的我们的
深度
学习
框架 PaddlePaddle 发展势头强劲。数以百万计的开发人员使用 Paddle 来完成他们的 AI 工作。这是——框架层和模型层之间有很强的协同作用。如您所知,AI 预训练非常昂贵。我们相信我们的全栈 AI 功能将使我们能够构建最高效的大型语言模型并支持各种应用程序,从搜索到内容生成或 - 以及可以显着提高生产力的垂直领域。 对于百度搜索,我刚才提到我们正在努力——我们正在努力开发基于 Ernie Bot 的百度搜索的革命性版本,它将生成人工智能融入我们的搜索算法和内容创建中。我们也在添加交互功能。用户很快就能直接与新的生成式大型语言模型进行交互。它将补充甚至升级传统的搜索体验并吸引更多用户。 ChatGPT 类型的功能有可能成为互联网用户新的流量入口,从而扩大搜索市场规模。同时,它也将帮助我们的广告商、我们的内容创作者和商家等。凭借我们强大的人工智能能力,我们应该能够不断迭代和升级模型。搜索只是一个例子。我们相信,还有许多其他应用程序也将从中受益。 对于 AI 云。我们的人工智能云提供从云基础设施层到
深度
学习
开源框架层再到大基础模型层再到应用的四层全栈产品。所以这是四层。 通过向公众开放生成式大型语言模型,即模型即服务,我们应该可以帮助许多企业主和企业家在我们的云上构建他们自己的模型和应用程序;在许多领域带来重大的积极变化和改进,包括提高效率、更好的决策制定和改进的客户体验。 综上所述,百度强大的人工智能能力构建了我们在大型语言模型和人工智能基础模型方面的护城河。除了扩大搜索的市场规模,我们还能够帮助很多很多行业建立自己的模型,开发自己的应用程序,显着提高他们的生产力。 我们相信它将改变云计算的游戏规则。AI 正在极大地改变许多行业,我们对即将发生的事情感到非常兴奋。我们正在围绕 Ernie Bot 构建一个人工智能生态系统。截至今天,许多组织已经决定将 Ernie Bot 集成到他们的产品和服务中。请记住,这只是旅程的开始。谢谢。 于加里 你好。谢谢管理层,祝贺你取得了不错的成绩。所以我有几个关于人工智能云业务的问题。第一个是收入增长。我们在第四季度看到的收入征收中断是否会推动第一季度的收益?到目前为止,您是否看到云项目开始重新开放?管理层预计 2023 年整体云收入增长情况如何?提供什么样的产品——我们可以从云服务中看到什么样的产品是 2023 年的主要增长动力。我们如何看待未来几年的公司增长率和云市场? 我认为与此相关的第二个问题是,您是否也可以评论公共部门企业与私营部门与公共部门的总体 IT 支出预算。您是否预计今年会赢得相当数量的新云项目?鉴于整体宏观仍然疲软,您是否认为上涨将是渐进的?最后,对盈亏平衡时间表有何评论?到目前为止,达到盈亏平衡的关键瓶颈是什么?谢谢。 窦德景 嗨,加里,谢谢你的提问。这是窦我会回答前两个问题,然后让罗戎负责最后一个问题。因此,随着我们的研发团队开始着手重新开放后正在进行的项目,我们确实看到云收入逐渐恢复。然而,从销售线索到收入确认的周期从几个月到几个季度不等。 现在考虑到这一点,我们今年的 AI 云收入增长应该会有所回落,但与此同时,由于我们专注于提高云的利润率,因此我们将保留 ACE [ph] 和云解决方案项目的低利润业务。这一举措将对我们未来的广告收入增长产生影响,但我们的目标仍然是在 2023 年继续超越我们的互联网同行。 从长远看,传统行业上云、用AI提升效率的大趋势没有改变。我相信在不久的将来,数字化和智能化转型将成为GDP增长的主要驱动力。可以肯定的是,我们将从这次转型中获益最多,因为我们认为百度处于独特的位置。 实际上,与我们的 - 与其他人相比,我们的 AI 云提供四层全栈产品,正如 Robin 刚才提到的,从云基础设施到
深度
学习
平台,如你所知,这就是 PaddlePaddle;大型地基模型;和新的应用。所有四个层都可以在每个提供的端到端解决方案中无缝地协同工作,以实现我们的最佳结果,即使成本更低,而其他解决方案是由不同的云平台和模型提供商构建的。 此外,一旦我们对这些层中的任何一个进行改进,端到端解决方案实际上可以在更短的时间内升级,这将进一步有利于计划。所以如果你在交通、制造、能源和公用事业等行业,我相信百度的云服务应该是最高效的,因为除了我刚才解释的技术优势,我们已经了解这个行业,我们知道痛点。我们通过成功交付业界已有的高质量产品积累了丰富的经验。 最重要的是,正如 Robin 刚才提到的,我们计划将 Ernie Bot 集成到我们的云和 AI 产品中,因此这应该可以帮助许多企业主和企业家构建他们的创新应用程序、探索新业务或改善他们的运营。所以我们相信这将是我们人工智能云迈出的重要一步,并有可能重塑整个中国的云产业。因此,我们将帮助更多的企业主和企业家从数字时代跨越到人工智能时代,人工智能技术将在各行各业的生产力中发挥至关重要的作用。最后,我将转向 Rong。 罗戎 谢谢,窦。是的,我将解决您关于我们的 AI 云利润率的问题。我们不断通过削减低利润业务来提高云的利润率,并继续构建可以扩展的人工智能应用程序,这是多年来一贯的战略。我认为,正如我们之前提到的,我们的人工智能云实际上包括两个部分。第一个将是个人云,它继续产生可观的营业利润率,而企业云仍在亏损,而毛利率和营业利润率的利润率都在提高。 事实上,如果你看看我们签署的新项目,我们预计过去几个季度的利润率将继续提高。罗宾在他准备好的发言中谈了很多关于我们如何实现利润率提高的问题。这将帮助我们在未来继续提高利润率。请注意,构建可供行业中型公司使用的可观 AI 应用程序组合需要时间,但我相信百度的全栈 AI 能力可以帮助我们解决[技术难点]。最后,我们几乎有望在未来几年内使 AI 云成为有利可图且健康的业务。 梁家辉 所以我有几个关于你的投资和利润的快速问题。由于我们正在经历经济复苏,您能否谈谈您在 2023 年的投资计划,例如用户获取和人数?与此相关的是,我认为 Robin 还提到了 AI 聊天机器人的运行成本可能非常高,对吧?所以也与此相关,你能谈谈它的利润率吗?然后你能给我们一些关于你的核心营销业务的利润率概况,以及长期研发和 G&A 费用目标的颜色吗?谢谢。 罗戎 是的,艾迪。非常感谢您提出问题,让我试着回答您的问题。如果我们还记得的话,其实我们从2021年底就开始降本降费,领先于国内同行业。我们在过去几个季度仔细审查和重组了我们的业务。对于移动生态系统,我们缩小甚至淘汰了百度拥有的一些业务——显然我们没有竞争优势,或者我们无法长期盈利。 通过这样做,移动——MEG——移动生态系统今天的增长,比一年前更健康,并且比以前更精简运营。而在过去几年,百度核心的总人数实际上减少了8%。而我们不是——我们专注于我们在同类中最好或我们在同类中第一的领域。同时,对于AI云,我们开始逐步淘汰低利润的业务。我们还加强了对机器人成本的控制。你大概可以看到,因此,2022年,百度核心的运营费用同比下降了9%。如果我们将它们分开,SG&A 同比下降 15%。研发同比下降 3%。 2022年下半年,百度核心的非美国通用会计准则营业利润率同比增长。现在我们拥有比一年前更健康的成本结构和更强大的组织。因此,展望 2023 年,我们将在支出方面保持非常严格的纪律。我们将继续平衡收入增长和利润率,因为我们正在为整个组织建立长期的可持续发展。 如果我们研究每个项目,我们将继续监控所有促销活动的投资回报率,尤其是百度的收购成本。我们将仔细管理所有其他可变成本。研发方面,你刚才问了,我们正在非常努力的提高我们团队的效率。今天的研发团队需要专注于构建能够为用户和客户创造更多价值的技术、产品或服务。我们相信,从长远来看,我们应该能够从研发设计中看到运营杠杆。 与此同时,我们将继续投资于增长和新机遇,并密切关注回报。对于资本支出,我们将继续投资于大型语言模型或生成式人工智能等尖端技术,因为我们相信,它将改变许多业务并为百度提供巨大的机会。虽然我们能够进一步提高重新分配一些资源的效率,以支持 Ernie Bot 等新计划。简而言之,我们会毫不犹豫地投资我们新的、有前途的业务。 因此,总结一下:我们将研究每项业务。未来移动生态系统应该继续产生高利润和现金流,这是我们的基础。对于人工智能云,我们的目标是继续扩大我们的利润率。在AI云里面,对于企业云,我们会继续削减低利润的业务,聚焦重点行业。正如 Robin 和 Dou 刚才所说,我们将继续标准化我们的 AI 解决方案和应用程序。对于个人云,我们未来将继续获得可观的利润和利润率。对于 Apollo Go,我们将继续为未来投资,但与此同时,我们将仔细监控其运营和财务指标,以评估我们的业绩和投资回报。从长远来看,我们相信我们仍有优化成本和支出的空间,但在这个过程中,我们将动态分配资源,平衡增长与利润率和现金流。非常感谢你的问题,艾迪。 魏雄 你好。晚上好,管理层。祝贺一个强劲的季度,感谢您提出我的问题。我想问问你们的 robotaxi 业务。我在想。该企业目前的单位经济效益是多少?我们应该如何考虑机器人出租车的盈亏平衡时间表?而且,如果管理层可以分享您的技术路线图上的任何颜色,那也将不胜感激? 李振宇 感谢您的提问。这是甄关于单位经济的问题,大家知道,robotaxi的主要成本是人工成本和车辆成本。首先,劳动力成本。如您所知,完全无人驾驶意味着车内没有安全员,这有助于降低人工成本。2022年,我们在开放道路上提供完全无人驾驶服务方面取得了重大进展。现在我们在武汉和重庆提供完全无人驾驶的网约车服务。例如,在武汉,我们通过覆盖更广的区域和更长的日常运营 - 运营时间以及增加我们的车队来不断扩大业务。 去年 12 月,我们获准在北京的开放道路上试驾全自动驾驶汽车。这是首都实现完全无人驾驶的重要一步。在 2023 年,我们计划进一步扩大我们的车队并推动完全无人驾驶操作。我们将继续通过允许更多车辆取消车内安全操作员来降低人工成本。中国越来越多的城市支持自动驾驶网约车运营。作为市场领导者,百度正受益于这一变化。 另外,正如我们之前所说,规模化运营帮助我们完善了核心技术并进一步提高了安全绩效。随着我们规模的扩大,我们将进一步改进我们的核心技术并获得监管机构的信任。Apollo Go 仍然是全球最大的自动驾驶叫车服务提供商。去年,我们为公众提供了超过 150 万次乘车服务。现在,平均而言,在北京等一线城市,每辆车每天提供超过 15 次乘车服务。这个数字已经接近出租车所能做到的了。我们相信,通过不断改进我们的技术,未来会有越来越多的城市为我们的完全无人驾驶网约车服务开绿灯。 其次,通过Apollo RT6降低车辆成本,旨在提供大规模的完全无人驾驶的网约车服务。我们首次将 robotaxi 的成本纳入大众市场电动汽车的价格范围。 我们相信未来车辆成本将继续下降,因为中国电动汽车市场发展非常快,整个供应链高度本地化。汽车零部件的成本还有很大的下降空间。 结合这两个因素,我们相信 Apollo Go 独特的经济性将继续改善。正如 Robin 所说,一旦我们扩大规模,我们就可以利用大型语言模型来改进技术。这将有助于我们进一步提高安全绩效。谢谢。 肯尼思·方 你好。感谢管理层回答我的问题,并祝贺这些非常强大的结果。我对用户流量和用户使用时间有疑问。随着中国重新开放,您是否看到这两个参数有任何影响或变化,尤其是在大城市?谢谢。 李彦宏 嗨,肯尼斯,我是罗宾。重新开放后,人们开始花更多的时间在户外,但实际上,我认为在 1 月份,用户花在我们主要应用上的时间总体上同比增长了 6.6%。这优于整体移动市场。我们有各种各样的应用程序可以满足用户的各种需求。 百度应用是中国为数不多的超级应用之一,百度搜索具有独特的价值主张。我们通过技术帮助人们在网上快速找到最相关和最权威的信息。所以每当用户想要搜索信息和知识时,他们都会来百度。 当他们回来工作时,这一点变得更加明显。哪怕是想查看所在地区的疫情动态,或者查看高考成绩,这种需求都可以被百度搜索等百度应用更好地匹配。 在过去的几年里,我们继续使用技术来丰富内容和服务,以便我们可以为用户提供更好的搜索、信息流和许多其他产品体验。今天,人们来找我们不仅是为了搜索信息,也是为了寻找产品和服务。这些努力巩固了百度在中国移动互联网领域的领先地位。 正如我之前提到的,另一个亮点当然是 Ernie Bot。有潜力成为人们上网新的流量入口。另外,利用AI生成短视频内容是Generative AI的典型应用。我们相信随着时间的推移,AIGC 将帮助我们在平台上积累更多的短视频,直接的好处将是增加视频收视率和广告收入。谢谢。 孔林肯 谢谢管理层给我机会。我有关于 ChatGPT 和我们的 Ernie Bot 的跟进。因此,似乎许多国内公司 - 最近不断宣布他们正在与我们合作或使用百度的 - Ernie Bot 技术。那么管理层能否详细说明这种合作关系的形式?这里的货币化机会是什么?我们应该考虑这种收入潜力有多大?还有竞争方面:那么我们应该如何看待其他互联网公司来提供类似的服务或挑战并限制我们在这里的货币化机会?谢谢。 李彦宏 当然。我们很高兴地看到,在我们宣布推出 Ernie Bot 的计划后,许多组织与我们联系并表达了与 Ernie Bot 合作的强烈兴趣。有些人已经宣布他们计划与我们合作,将 Ernie Bot 功能集成到他们的产品或服务或运营中。越来越多的企业意识到生成式大型语言模型将改变他们的行业,他们想抓住这个机会。 Ernie Bot如此受关注,也说明百度的AI能力领先,AI时代终于来了。在货币化机会方面,Ernie Bot 将被整合到百度搜索中以提升用户体验。用户将更加依赖我们的各种任务和需求,因此显着扩大搜索市场规模。 我们正在使用 AIGC 来扩展我们的内容,例如文本、图像或视频;这将为我们创造一个很好的机会来吸引新用户,增加用户时间花费和用户粘性;从长远来看,帮助我们在在线广告市场获得份额。对于云客户,他们将能够利用我们的全栈 AI 功能,而不仅仅是基本的东西、存储或带宽或数据库,诸如此类。他们可以基于我们的 AI 框架 PaddlePaddle 和基础模型 Ernie 开发他们的应用程序。它会更容易、更高效、更强大,因此这也将推动我们的云收入。 我们的全栈 AI 功能非常独特。它包含云基础设施、
深度
学习
平台(如 PaddlePaddle)和大型语言模型以及广泛使用的应用程序。我们在所有四个层面都有很强的影响力,这四个层面有效地协同工作。我们的大型语言模型 Ernie 3.0 已经接受了数十亿的日常用户搜索请求和其他流行的百度应用系列的训练。百度的 Ernie Bot 将使用这种标记良好的巨大数据池来帮助改进和随着时间的推移快速适应。这方面的进入门槛非常高。这需要多年的重大投资,我们具有先发优势。 Ernie Bot 背后的技术被称为带有人类反馈的强化学习。所以在这里,人的反馈部分是至关重要的。作为先行者,我们获得了越来越多的人类反馈,并进一步提高了我们领先于其他任何人的能力。 现在我们正专注于准备Ernie Bot的发布,并在发布后不断改进。而且我们也专注于我们相信的领域,Ernie Bot 将创造即时价值,敬请期待。谢谢。 操作员 谢谢。女士们,先生们,我们今天的会议到此结束。感谢您的参与。你们都可以断开连接。$百度(BIDU)$ $百度集团-SW(09888)$
lg
...
老虎证券
2023-02-23
英伟达FY2023 Q4业绩电话会分析师问答
go
lg
...
为我们加速了端到端的事情,不仅仅是它的
深度
学习部
分,而是使用 CUDA 来加速从端到端的一切。 因此,我认为我们计算的普遍性——加速计算平台,我们在每个云中的事实,我们从云到边缘的事实,使我们的架构真的很容易访问并且以这种方式非常不同。最重要的是,对于所有服务提供商而言,由于利用率如此之高,因为您可以使用它来加速端到端工作负载并获得如此好的吞吐量,我们的架构是最低的运营成本。它不是 - 比较还差得远。所以 - 无论如何,这是 2 个答案。 克里斯托弗缪斯 我猜,Jensen,你谈到 ChatGPT 是一个有点像 iPhone 的转折点。非常好奇,第一,在 ChatGPT 之后,您与超大规模和大型企业的对话是如何演变的?其次,当您考虑具有变革性引擎的 Hopper 和具有高带宽内存的 Grace 时,您如何看待过去几个月演变的这两个产品周期的增长前景? 黄仁勋 ChatGPT 是一项很棒的工作,团队做得很好,OpenAI 用它做得很好。他们坚持了下来。所有突破的积累导致了一种服务,其内部模型以其多功能性和能力让每个人都感到惊讶。 人们感到惊讶的是,这在我们的行业内是众所周知的。但是单个 AI 模型的惊人能力可以执行从未受过训练的任务和技能。而这个语言模型不只是说英语,或者可以翻译,当然,但不只是说人类语言,它可以用人类语言提示,而是输出Python,输出Cobalt,一种很少有人记得的语言,输出用于 Blender 的 Python,一个 3D 程序。所以这是一个为另一个程序编写程序的程序。 我们现在意识到——世界现在意识到也许人类语言是一种非常好的计算机编程语言,我们已经使计算机编程民主化,适用于每个人,几乎任何可以用人类语言解释要执行的特定任务的人。这台新计算机——当我说到计算的新时代,这个新的计算平台,这台新计算机可以接受任何你的提示,无论你的人类解释的请求是什么,并将其翻译成一系列你可以直接处理的指令,或者它等待您决定是否要处理它。 因此,这种类型的计算机在其应用中是完全革命性的,因为它对这么多人的民主化编程确实让全世界的企业都兴奋不已。每个 CSP,每个互联网服务提供商,坦率地说,他们是每个软件公司,因为我刚才解释过,这是一个可以为任何程序编写程序的 AI 模型。正因为如此,每个开发软件的人要么被提醒,要么被震惊到警觉,或者积极致力于将 ChatGPT 之类的东西集成到他们的应用程序或集成到他们的服务中。因此,正如您可以想象的那样,这完全是全球性的。 在过去的 60 天里,围绕我们构建 Hopper 的 AI 基础设施的活动以及使用 Hopper 和 Ampere 推理大型语言模型的推理活动刚刚火爆起来。因此,毫无疑问,无论我们对今年的看法如何,在我们进入这一年之际,由于过去 60、90 天的原因,已经发生了相当大的变化。 马修拉姆齐 Jensen,我想问几个关于 DGX Cloud 的问题。我想,我们都在谈论服务的驱动程序以及您将使用不同的超大规模器在这些服务之上托管的计算。但我认为我们一直在观察和想知道您的数据中心业务何时可能会过渡到更多的系统级业务,这意味着将 [音频不清晰] InfiniBand 与您的 Hopper 产品、Grace 产品配对并在系统上销售更多东西等级。我想知道您是否可以退后一步,在接下来的 2 或 3 年内,您认为数据中心部门的业务组合如何从销售卡发展到系统和软件?随着时间的推移,这对该业务的利润率意味着什么? 黄仁勋 是的,我很欣赏这个问题。首先,如您所知,我们的数据中心业务仅在概念 GPU 的背景下是 GPU 业务,因为我们实际出售给云服务提供商的是一个面板,一个相当大的 8 Hoppers 或 8 Amperes 计算面板与与 NVLink 相连的 NVLink 交换机相连。因此,该板基本上代表 1 个 GPU。它是 8 个芯片连接在一起成为 1 个 GPU,具有非常高速的芯片到芯片互连。因此,如果您愿意的话,我们一直在研究多芯片计算机已有一段时间了。那是 1 个 GPU。 所以当我们想到 GPU 时,我们实际上会想到 HGX GPU,也就是 8 个 GPU。我们将继续这样做。云服务提供商真正兴奋的是托管我们的基础设施供 NVIDIA 提供,因为我们有很多直接合作的公司。我们直接与全球 10,000 家 AI 初创公司合作,涉及各个行业的企业。今天所有这些关系都非常希望能够至少部署到云中,或者部署到云和本地,通常是多云。 因此,通过让 NVIDIA DGX 和 NVIDIA 的基础设施在他们的云中成为全栈,我们有效地吸引了客户到 CSP。这对他们来说是一个非常非常令人兴奋的模型。他们张开双臂欢迎我们。我们将成为世界云领域最好的 AI 销售人员。对于客户来说,他们现在拥有最先进的即时基础设施。他们有一个团队,从基础架构到加速软件,NVIDIA AI 开放操作系统,一直到 AI 模型都非常出色。在 1 个实体中,他们可以获得整个跨度的专业知识。所以这对客户来说是一个很好的模型。这是 CSP 的一个很好的模型。这对我们来说是一个很好的模型。它让我们真正的奔跑如风。尽管我们将继续并继续推进 DGX AI 超级计算机,但在本地构建 AI 超级计算机确实需要时间。怎么看都难。不管怎么看都需要时间。所以现在我们有能力真正预取其中的很多内容,让客户尽快启动和运行。 蒂莫西·阿库里 Jensen,我想问一下这一切对你的 TAM 有什么影响。现在的大部分重点都放在文本上,但显然,有些公司在视频和音乐方面进行了大量培训。他们在那里研究模型。似乎正在训练这些大型模型的人可能在高端的云中至少有 10,000 个 GPU,他们已经签约,可能还有数万个 GPU 用于推断广泛部署的模型。所以看起来增量 TAM 很容易在几十万个 GPU 中,很容易达到数百亿美元。但我有点想知道这对你去年提供的 TAM 数字有何影响。我想你说的是 3000 亿美元的硬件 TAM 和 3000 亿美元的软件 TAM。那么您如何看待新的 TAM 是什么? 黄仁勋 我认为这些数字仍然是非常好的锚点。不同之处在于,如果你愿意的话,生成人工智能具有令人难以置信的能力和多功能性,以及去年年中和年底发生的所有融合突破,我们可能会早晚到达那个 TAM。毫无疑问,这对计算机行业来说是一个非常重要的时刻。每一个平台的变化,人们开发计算机方式的每一个转折点,都是因为它更容易使用、更容易编程和更容易访问。这发生在 PC 革命中。这发生在互联网革命中。这发生在移动云上。请记住,移动云,由于 iPhone 和 App Store,出现了 500 万个应用程序,并且还在不断增加。没有 500 万个大型机应用程序。没有 500 万个工作站应用程序。没有 500 万个 PC 应用程序。因为开发和部署令人惊叹的应用程序非常容易,一部分是云,一部分是在移动设备上,而且由于应用程序商店的存在,分发也很容易,所以同样的事情现在也发生在人工智能身上。 在没有计算的时代,一个计算平台 ChatGPT 在 60、90 天内达到了 1.5 亿人。我的意思是,这是一件非同寻常的事情。人们正在用它来创造各种各样的东西。所以我认为你现在看到的只是涌现的新公司和新应用程序的洪流。毫无疑问,从各个方面来说,这都是一个新的计算时代。所以我认为——我们解释和表达的 TAM,它在今天确实比以前更容易实现。 斯泰西·拉斯根 澄清一下,你说 H-100 的收入高于 A100。这是一个总体陈述吗?或者是在同一时间点,比如在 2 个季度的出货量之后? 然后是我的实际问题。我想问问汽车,特别是梅赛德斯的机会。梅赛德斯今天举办了一场活动,他们正在谈论他们的 MB Drive 的软件收入,到 20 世纪中期可能达到个位数或低 10 亿欧元,到 20 世纪末达到 10 亿欧元。我知道你们应该将软件收入分成 50-50。你们正在考虑的梅赛德斯交易软件收入的数量级是这种数量级吗?在相似的时间范围内?那是我们应该如何建模的吗? 科莱特克雷斯 首先让我从您提出的关于 H-100 和 A100 的问题开始。我们在第三季度开始首次发货 H-100。这是一个很好的开始。他们中的许多人在很多季度前就开始了这个过程。这是我们在第三季度获得生产水平的时候。因此,第四季度是我们看到 H-100 大幅提升的重要时刻。这意味着我们的 H-100 是我们在第四季度的许多 CSP 的焦点,他们都希望在云实例中启动和运行。因此,我们实际上在第四季度看到的 A100 数量少于我们在 H-100 中看到的数量。我们倾向于继续销售这两种架构,但就在第四季度,这是一个强劲的季度 您对梅赛德斯-奔驰的其他问题。我对我们与他们的共同联系和工作感到非常满意。我们一直在非常努力地准备上市。你是对的。他们确实谈到了软件机会。他们分两个阶段讨论了他们的软件机会,关于他们可以用 Drive 做什么以及他们还可以用 Connect 做什么。他们延长了大约 10 年的时间,着眼于他们在我们面前看到的机会。因此,它与我们与长期合作伙伴的想法一致,并随着时间的推移分享收入。 黄仁勋 Stacy,如果我可以补充的话,其中一件事是关于梅赛德斯正在做的事情的智慧。这是唯一的大型奢侈品牌,从每一辆——从入门级到最高端的豪华车,每一辆都安装了丰富的传感器,每一辆他们配备了人工智能超级计算机,这样梅赛德斯车队中的每辆未来汽车都将成为一个可以升级和永远更新的安装基础,以供未来的客户使用。如果你能想象一下如果今天在路上的整个梅赛德斯车队都是完全可编程的,你可以 OTA,那将代表数千万辆梅赛德斯,这将代表创收机会。这就是 Ola 的愿景。我认为他们正在建造的是什么,这将是非凡的。豪华车的庞大安装基础将继续更新——为了客户的利益,也为了创收利益。 马克·利帕西斯 我认为对你来说,詹森,似乎每年都会出现新的工作负载,并推动对你的流程或生态系统周期的需求。如果我回想面部识别,然后是推荐引擎、自然语言处理、Omniverse 和现在的生成式 AI 引擎,您能与我们分享您的观点吗?这是我们应该期待的未来吗,比如将您的产品需求推向新水平的全新工作负载? 我问的原因是因为我发现你在脚本中的评论很有趣,你提到你对生成人工智能将推动你的产品和服务的需求的看法 - 似乎很多,更好比你过去 90 天的想法还要多。所以 - 就您正在处理的新工作负载或可以推动下一级别需求的新应用程序而言,您是否愿意与我们分享一些您认为可以推动它超越您的需求的东西今天见? 黄仁勋 首先,我有一些您不知道的新应用程序和我们从未分享过的新工作负载,我想在 GTC 上与您分享。这就是我参加 GTC 的诱因,我认为您会对我们将要讨论的应用程序感到非常惊讶和非常高兴。 现在,您不断听到有关新应用程序的消息是有原因的。原因是,第一,NVIDIA 是一个多域加速计算平台。它不像CPU那样完全是通用的,因为CPU是95%,98%是控制函数,只有2%是数学,这使得它完全是灵活的。我们不是那样的。我们是一个加速计算平台,与 CPU 一起工作,可以卸载真正繁重的计算单元,这些单元可能会非常非常瘫痪以卸载它们。但我们是多域的。我们可以做粒子系统。我们可以做流体。我们可以做神经元。我们可以做计算机图形。我们可以做的 。我们可以加速各种不同的应用程序,第一。 第二,我们的客户群非常庞大。这是唯一的加速计算平台,唯一的平台。从字面上看,这是唯一一个在架构上兼容从 PC 到工作站、游戏玩家到汽车再到本地的所有云的架构。每台计算机在架构上都是兼容的,这意味着开发了一些特别的东西的开发人员会寻找我们的平台,因为他们喜欢它的影响力。他们喜欢普遍的影响力。他们喜欢加速,第一。他们喜欢编程工具的生态系统和它的易用性,以及他们可以接触到很多人来帮助他们这一事实。全世界有数以百万计的 CUDA 专家,软件都加速了,工具都加速了。然后非常重要的是,他们喜欢触及范围。他们喜欢你可以看到的事实——他们在开发软件后可以接触到如此多的用户。这就是我们不断吸引新应用程序的原因。 最后,这是非常重要的一点。请记住,CPU 计算进步的速度已经大大放缓。而在我职业生涯的前 30 年里,每 5 年在大约相同的功率下性能提高 10 倍,然后每 5 年提高 10 倍。这种持续前进的速度已经放缓。在这个时代,人们仍然非常非常迫切地想要将他们想要带给世界的应用程序,而随着功率的不断增加,他们负担不起这样做。每个人都需要可持续发展。你不能继续消耗电力。通过加速它,我们可以减少您为任何工作负载使用的电量。因此,所有这些原因确实促使人们使用加速计算,并且我们不断发现新的令人兴奋的应用程序。 阿蒂夫·马利克 科莱特,我有一个关于数据中心的问题。您在 1 月季度看到了建设计划的一些弱点,但您正在指导 4 月和全年的同比加速。因此,如果您可以为我们加速排名的信心。这是基于你的 H-100 斜坡或生成的 AI 销售,还是新的 AI 服务模型?而且,如果你能谈谈你在企业垂直领域看到的情况。 科莱特克雷斯 当我们考虑我们的增长时,是的,我们将在第一季度连续增长,并且预计第一季度也将实现同比增长。它可能会在那里加速前进。那么我们认为这是什么驱动因素呢?是的,我们有多个产品周期进入市场。我们现在有 H-100 上市。我们也将继续推出新产品,有时我们的 GPU 计算和我们的网络会为这些产品提供动力。然后我们可能会在今年下半年取得成绩。此外,生成人工智能在我们的客户中引起了一定的兴趣,无论是 CSP,还是企业,其中之一是初创企业。我们预计这将成为我们今年收入增长的一部分。最后,让我们不要忘记,鉴于摩尔定律的终结,专注于 AI,专注于加速持续是错误的。因此,随着经济的改善,这对企业来说可能非常重要,并且云优先的存在可以为企业提供动力,因为他们 [音频不清晰]。我将把它转给 Jensen,看看他是否有任何其他想要添加的内容。 黄仁勋 不,你做得很好。那很棒。 约瑟夫摩尔 Jensen,你谈到在过去十年中你训练这些模型的能力提高了 100 万倍。您能否让我们深入了解未来几年的情况,以及您的一些使用这些大型语言模型的客户所谈论的复杂性在那种时间范围内增加了 100 倍的程度。我知道 Hopper 的变压器性能提高了 6 倍。但是你能做些什么来扩大规模呢?其中有多少只是反映了未来将有更大的硬件支出? 黄仁勋 首先,我会倒着开始。我相信人工智能基础设施的数量将在全世界增长。原因是人工智能,即智能的生产,将在制造业中进行。曾几何时,人们只生产实物商品。未来,几乎每家公司都会制造软商品。它恰好以智能的形式出现。数据进来了。那个数据中心只做一件事,而且只做一件事。它利用这些数据生成一个新的更新模型。在原材料进来的地方,建筑物或基础设施在其上运转,然后精炼或改进的东西产生了巨大的价值,这就是工厂。所以我希望看到世界各地的 AI 工厂。其中一些将托管在云中。其中一些将在本地进行。会有一些很大,有些会非常大,然后会有一些更小。所以我完全希望这会发生,第一。 第二。在接下来的 10 年里,我希望通过新芯片、新互连、新系统、新操作系统、新分布式计算算法和新 AI 算法,并与开发人员合作开发新模型,我相信我们会将人工智能再加速一百万倍。我们有很多方法可以做到这一点。这就是 NVIDIA 不仅仅是一家芯片公司的原因之一,因为我们试图解决的问题太复杂了。你必须考虑整个堆栈,从芯片一直到通过软件通过网络进入数据中心。在一家公司的头脑中,我们可以考虑整个堆栈。由于这个原因,它确实是计算机科学家的一个很好的游乐场,因为我们可以在整个堆栈中进行创新。所以我的期望是,你将在未来十年的下一家公司、人工智能平台上看到人工智能模型的真正巨大突破。但与此同时,由于其令人难以置信的增长和采用,您将随处看到这些 AI 工厂。 黄仁勋 谢谢。Transformer、大型语言模型和生成式 AI 的突破积累,将 AI 的能力和多功能性提升到了一个显着的水平。一个新的计算平台已经出现。新公司、新应用程序和应对长期挑战的新解决方案正在以惊人的速度诞生。几乎每个行业的企业都在积极应用生成人工智能来重新构想他们的产品和业务。围绕 AI 的活动水平已经很高,现在已经显着加快。这是我们十多年来一直努力的时刻。我们准备好了。我们配备新变压器引擎和 Quantum InfiniBand 结构的 Hopper AI 超级计算机已全面投入生产,CSP 正在竞相开放其 Hopper 云服务。在我们努力满足对 GPU 的强劲需求时, 不要错过即将到来的 GTC。关于新芯片、系统和软件、新 CUDA 应用程序和客户、新生态系统合作伙伴以及 NVIDIA AI 和 Omniverse 的更多信息,我们有很多要告诉您的。这将是我们迄今为止最好的 GTC。到时候那里见。 (这份记录可能不是100%的准确率,并且可能包含拼写错误和其他不准确的。提供此记录,没有任何形式的明示或暗示的保证。表达的记录任何意见并不反映老虎的意见)
lg
...
老虎证券
2023-02-23
石头科技涨超4%,人工智能ETF(159819)今日成交额超3300万元
go
lg
...
别、自然语音处理及数据科学,2006年
深度
学习
提出后AI产业进入快速发展阶段,目前已在安防、金融、医疗、智能汽车等领域广泛应用,推动生产力进步。人工智能支出已经成为支持企业数字化转型支出的主力之一,市场规模快速增长。根据沙利文的报告,2020年全球人工智能技术支出为687亿美元,预计2025年达到2212亿美元,年复合增速达到26.3%,而中国人工智能市场规模年复合增速将达到41.5%,预计增速有望全球第一。 (来源:界面AI) 声明:本条内容由界面AI生成并授权使用,内容仅供参考,不构成投资建议。AI技术战略支持为有连云。
lg
...
有连云
2023-02-23
李彦宏:计划将多项主流业务与文心一言整合
go
lg
...
人工智能公司,从高端芯片昆仑芯,到飞桨
深度
学习
框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术,可以实现端到端优化,大幅提升效率。 我们计划将多项主流业务与文心一言整合。文心一言与搜索整合,将引领搜索体验的代际变革。除了提供更好的搜索和答案,我们还会提供全新的交互和聊天体验,以及独特的生成内容,极大地丰富内容生态和供给,吸引更多用户,并有机会形成新的流量入口。文心一言也将通过百度智能云对外提供服务。之前选择云厂商更多看算力、存储等基础云服务。未来,更多会看框架好不好、模型好不好,以及模型、框架、芯片、应用之间的协同。这会根本性地改变云计算市场的游戏规则。文心一言大模型搭载到Apollo智舱系列产品,会让智能汽车具备领先一代的人车交互体验。文心一言与小度进行集成,将显著提升小度与用户进行多轮对话的体验,更加聪明和善解人意。小度将成为用户身边更加全能的智能助手。 最近这几年,我不断跟同学们讲困难和挑战,为的是当机会来临时,我们能够抓住机会,勇敢创新。因为只有创新能够驱动增长。让我们牢记使命,“用科技让复杂的世界更简单”,坚持做正确的事,帮助实现人工智能的终极理想,“为人类带来更多的自由与可能”。同学们,你们准备好了吗? Robin
lg
...
金融界
2023-02-22
《上海算力网络发展倡议书》出炉,中证1000指数ETF(159633)早盘飘红
go
lg
...
别、自然语音处理及数据科学,2006年
深度
学习
提出后AI产业进入快速发展阶段,目前已在安防、金融、医疗、智能汽车等领域广泛应用,推动生产力进步。人工智能支出已经成为支持企业数字化转型支出的主力之一,市场规模快速增长。 国信证券认为,数据、算力与算法是人工智能时代的三大基石,三者相互促进带动AI+应用快速落地,ChatGPT为首的自然语言处理类技术及应用,有望迎来全面爆发。 (来源:界面AI) 声明:本条内容由界面AI生成并授权使用,内容仅供参考,不构成投资建议。AI技术战略支持为有连云。
lg
...
有连云
2023-02-22
科大讯飞:ChatGPT是一个里程碑式技术革命 预计于2023年5月6日进行产品级发布
go
lg
...
机构调研时表示,ChatGPT的推出是
深度
学习
提出后又一个里程碑式的技术革命,认知智能技术的大规模应用处在“历史机遇期”。科大讯飞于2022年12月份进一步启动生成式预训练大模型任务攻关,科大讯飞AI学习机、讯飞听见等产品将成为该项技术率先落地的产品,预计于2023年5月6日进行产品级发布。
lg
...
金融界
2023-02-21
Chat GPT未来技术互联网发展缩影 | Web3
go
lg
...
型的,Transformer模型是一种
深度
学习
模型,可以学习文本中的长期依赖关系。这使得ChatGPT可以生成连贯、准确的文本,并理解上下文中的复杂关系。它的架构是由多个Transformer块组成的,每个块都有一个自注意力机制,用于捕捉输入文本中不同部分之间的依赖关系。 ChatGPT具有许多强大的功能,以下是一些常见的用例: 文本生成 ChatGPT可以生成几乎任何类型的文本,例如对话、故事、诗歌等。只需提供一些初始文本,ChatGPT就可以自动生成与之相似的内容。这使得ChatGPT在聊天机器人和自动作家等领域具有广泛的应用。 文本分类 ChatGPT可以将文本分类为预定义的类别,例如情感分析或垃圾邮件过滤。它可以学习不同类别之间的差异,并将新的文本分配给最有可能的类别之一。 问答系统 ChatGPT可以根据提供的问题和上下文,回答用户的问题。它可以理解问题的含义并从相关文本中提取答案。这使得ChatGPT在虚拟助手和搜索引擎中具有广泛的应用。 文本摘要 ChatGPT可以生成输入文本的简洁摘要,使用户能够更快地了解文本的内容。它可以自动识别重要信息,并生成一个简洁的概括。 自动翻译 ChatGPT可以将一种语言翻译成另一种语言。它可以学习两种语言之间的映射,并自动翻译输入文本。 ChatGPT的训练需要大量的计算资源和大量的数据。它使用无监督学习方法进行预训练,这意味着它可以使用大量未标记的文本数据进行训练。在预训练阶段,ChatGPT学习了大量的文本,从而使其能够生成更加准确和连贯的文本。然后,它可以使用有标记的数据进行微调,以适应不同的任务。 ChatGPT也有一些限制,如情感,情绪,所以可不是今年才有哦,Chat GPT是有1.0、2.0、3.0阶段 影响 Chat GPT作为一种强大的自然语言处理模型,已经在互联网和数字加密行业产生了重大影响。 在互联网方面,Chat GPT可以用于创建更智能、更人性化的聊天机器人。这些聊天机器人可以在网站和应用程序中使用,使客户能够与公司进行更加自然和流畅的交互。Chat GPT还可以用于文本生成任务,如自动生成新闻、文章和故事。这可以节省时间和成本,从而为新闻出版商和写作人员带来更高的效率。 在数字加密行业方面,Chat GPT的影响正在不断增强。它可以用于加密货币交易的自动化,并提高交易效率。例如,Chat GPT可以分析市场数据并生成预测,以帮助交易员做出更明智的决策。Chat GPT也可以用于加密货币钱包的安全性。它可以检测恶意软件和非法交易,并提供更好的安全性和保护。 除此之外,Chat GPT还可以用于处理自然语言的难题,例如文本翻译和文本摘要。这些都是在数字加密行业中非常重要的任务,因为它们能够提高交易员和分析师的效率,从而减少错误和提高利润。 然而,Chat GPT的使用也存在一些挑战和限制。首先,它需要大量的计算资源和大量的数据进行训练,这使得其在实际应用中可能会面临一些限制。其次,Chat GPT可能会受到操纵和误导,因为它并不总是能够理解文本中的含义,而是通过学习模式来生成文本。因此,对于使用Chat GPT的应用程序和系统,需要进行仔细的审核和测试,以确保其准确性和可靠性。 总之,Chat GPT在互联网和数字加密行业中的影响将会越来越重要,它将会在这些领域中扮演重要的角色,从而带来更高的效率和更好的结果。 来源:金色财经
lg
...
金色财经
2023-02-21
人工智能时代的算力挑战
go
lg
...
T确实非常惊艳,但从根本上讲,它依然是
深度
学习
技术的一个小拓展。事实上,与之类似的产品在几年前已经出现过,所不同的是,ChatGPT在参数数量上要远远多于之前的产品,其使用的训练样本也要大得多。而它卓越的性能,其实在很大程度上只是这些数量优势积累到了一定程度之后产生的质变。 有意思的是,如果我们回顾一下
深度
学习
的历史,就会发现这种利用神经网络进行机器学习的思路其实在上世纪50年代就有了,可以称得上是人工智能领域最古老的理论之一。早在1958年,罗森布拉特就曾经用这个原理制造了一台机器来识别字符。然而,在很长的一段时间内,这个理论却一直无人问津,即使现在被尊为“
深度
学习
之父”的杰弗里·辛顿(Geoffrey Hinton)也长期遭受孤立和排挤。究其原因,固然有来自当时在人工智能领域占主导地位的“符号主义”的打压,但更为重要的是,当时的
深度
学习
模型确实表现不佳。 直到本世纪初,这一切才发生了改变。长期蛰伏的
深度
学习理论
终于翻身成为了人工智能的主流,一个个基于这一理论开发的模型如雨后春笋一般出现。从打败围棋高手的AlphaGo到识别出几亿种蛋白质结构的AlphaFold,从可以瞬间生成大师画作的Dall-E、Stable Diffusion到当今如日中天的ChatGPT,所有的这些在短短的几年之间涌现了。 那么,到底是什么原因让
深度
学习
在过去的几年中扭转了长期的颓势,让它得以完成了从异端到主流的转换?我想,最为关键的一点就是算力的突破。 算力及其经济效应 所谓算力,就是设备处理数据、输出结果的能力,或者简而言之,就是计算的能力。它的基本单位是用“每秒完成的标准操作数量”(standardized operations per second,简称SOPS)来进行衡量。不过,由于现在的设备性能都非常高,因而在实践中用SOPS来衡量算力已经变得不那么方便。相比之下,“每秒完成的百万次操作数”(million operations per second,简称MOPS)、“每秒完成的十亿次操作数”(giga operations per second,简称GOPS),以及“每秒完成的万亿次操作数”(tera operations per second,简称TOPS)等单位变得更为常用。当然,在一些文献中,也会使用某些特定性能的设备在某一时间段内完成的计算量来作为算力的单位——其逻辑有点类似于物理学中用到的“马力”。比如,一个比较常用的单位叫做“算力当量”,它就被定义为一台每秒运算千万亿次的计算机完整运行一天所实现的算力总量。 那么,算力的意义究竟何在呢?关于这个问题,阿格拉沃尔(Ajay Agrawal)、甘斯(Joshua Gans)和戈德法布(Avi Goldfarb)在他们合著的《预测机器》(Prediction Machines,中文译名为《AI极简经济学》)中,曾经提出过一个有启发的观点:算力的成本将关系到AI模型的“价格”。经济学的原理告诉我们,在给定其他条件的前提下,人们对一种商品的需求量取决于该商品的价格。而对于两种性能相近,具有替代关系的商品来说,具有更低价格的那种商品会在市场上具有更高的竞争力。将这一点应用到人工智能领域,我们就可以找到
深度
学习理论
为什么在几十年中都不被待见,却在最近几年中实现爆发的原因。 虽然
深度
学习
的理论并不算困难,但是为了实现它,要投入的运算量是十分巨大的。在算力低下的时代,算力的单位成本非常高。在罗森布拉特提出
深度
学习
思想雏形的那个年代,一台计算机的体积几乎和一间房子那么大,但即便如此,让它运算一个大一点的矩阵都还需要很长时间。虽然理论上我们也可以用
深度
学习
来训练大模型并达到比较好的效果,但这样的成本显然是没有人能够承受的。而相比之下,符号学派的模型对于计算量的要求要小得多,因此这些模型的相对价格也要比
深度
学习
模型来得低。在这种情况下,
深度
学习理论
当然不会在市场上有竞争力。但是,当算力成本大幅度降低之后,
深度
学习
模型的相对价格就降了下来,它的竞争力也就提升了。从这个角度看,
深度
学习
在现阶段的胜利其实并不是一个纯粹的技术事件,在很大程度上,它还是一个经济事件。 改进算力的方法 那么,决定算力的因素有哪些呢? 为了直观起见,我们不妨以计算数学题来对此进行说明:如果我们要提高在单位时间内计算数学题的效率,有哪些方法可以达到这一目的呢?我想,可能有以下几种方法是可行的:一是找更多人一起来计算。如果一个人一分钟可以算一个题,那么十个人一分钟就可以算十个题。这样,即使每个人的效率没有提升,随着人数的增加,单位时间内可以计算的数学题数量也可以成倍增加。二是改进设备。比如,最早时,我们完全是依靠手算的,效率就很低。如果改用计算器,效率会高一点。如果使用了Excel,效率就可能更高。三是将问题转化,用更好的方法来计算。比如,计算从1加到100,如果按照顺序一个个把数字加上去,那么可能要算很久。但是,如果我们像高斯那样用等差数列求和公式来解这个问题,那么很快就可以计算出结果。 将以上三个方案对应到提升算力问题,我们也可以找到类似的三种方法:一是借助高性能计算和分布式计算;二是实现计算模式上的突破;三是改进算法——尽管严格地说这并不能让算力本身得到提升,但是它却能让同样的算力完成更多的计算,从某个角度看,这就好像让算力增加了一样。 1、高性能计算和分布式计算 从根本上讲,高性能计算和分布式计算都是通过同时动用更多的计算资源去完成计算任务,就好像我们前面讲的,用更多的人手去算数学题一样。所不同的是,前者聚集的计算资源一般是聚集在本地的,而后者动用的计算资源则可能是分散在网上的。 (1)高性能计算 先看高性能计算。高性能计算中,最为重要的核心技术是并行计算(Parallel Computing)。所谓并行计算,是相对于串行计算而言的。在串行计算当中,计算任务不会被拆分,一个任务的执行会固定占有一块计算资源。而在并行计算中,任务则会被分解并交给多个计算资源进行处理。打个比方,串行计算过程就像是让一个人独立按照顺序完成一张试卷,而并行计算则像是把试卷上的题分配给很多人同时作答。显然,这种任务的分解和分配可以是多样的:既可以是把计算任务分给多个设备,让它们协同求解,也可以是把被求解的问题分解成若干个部分,各部分均由一个独立的设备来并行计算。并行计算系统既可以是含有多个处理器的超级计算机,也可以是以某种方式互连的若干台独立计算机构成的集群。 从架构上看,并行计算可以分为同构并行计算(homogeneous parallel computing)和异构并行计算(heterogeneous parallel computing)。顾名思义,同构并行计算是把计算任务分配给一系列相同的计算单元;异构并行计算则是把计算任务分配给不同制程架构、不同指令集、不同功能的计算单元。比如,多核CPU的并行运算就属于同构并行,而CPU+GPU的架构就属于异构并行。 对比于同构并行,异构并行具有很多的优势。用通俗的语言解释,这种优势来自于各种计算单元之间的“术业专攻”,在异构架构之下,不同计算单元之间的优势可以得到更好的互补。正是由于这个原因,异构并行计算正得到越来越多的重视。 比如,现在越来越多的设备当中,都采用了将GPU和CPU混搭的架构。为什么要这么做呢?为了说明白这一点,我们需要略微介绍一下CPU和GPU的结构:从总体上看,无论是CPU还是GPU,都包括运算器(Arithmetic and Logic Unit,简称ALU)、控制单元(Control Unit,简称CL)、高速缓存器(Cache)和动态随机存取存储器(DRAM)。但是,这些成分在两者中的构成比例却是不同的。 在CPU当中,控制单元和存储单元占的比例很大,而作为计算单位的ALU比例则很小,数量也不多;而在GPU当中则正好相反,它的ALU比例很大,而控制单元和存储单元则只占很小的一个比例。这种结构上的差异就决定了CPU和GPU功能上的区别。CPU在控制和存储的能力上比较强,就能进行比较复杂的计算,不过它可以同时执行的线程很少。而GPU则相反,大量的计算单位让它可以同时执行多线程的任务,但每一个任务都比较简单。打个比喻,CPU是一个精通数学的博士,微积分、线性代数样样都会,但尽管如此,让他做一万道四则运算也很难;而GPU呢,则是一群只会四则运算的小学生,虽然他们不会微积分和线性代数,但人多力量大,如果一起开干,一万道四则运算分分钟就能搞定。 由于GPU的以上性质,它最初的用途是作为显卡,因为显卡负责图形和色彩的变换,需要的计算量很大,但每一个计算的复杂性都不高。当
深度
学习
兴起之后,人工智能专家们发现GPU其实也很适合用来训练神经网络模型。因为在
深度
学习
模型中,最主要的运算就是矩阵运算和卷积,而这些运算从根本上都可以分解为简单的加法和乘法。这样一来,GPU就找到了新的“就业”空间,开始被广泛地应用于人工智能。但是,GPU并不能单独执行任务,所以它必须搭配上一个CPU,这样的组合就可以完成很多复杂的任务。这就好像让一个能把握方向的导师带着很多肯卖力的学生,可以干出很多科研成果一样。正是在这种情况下,异构并行开始成为了高性能计算的流行架构模式。 不过,异构架构也是有代价的。相对于同构架构,它对于应用者的编程要求更高。换言之,只有当使用者可以更好地把握好不同计算单元之间的属性,并进行有针对性的编程,才可能更好地利用好它们。 除此之外,我们还必须认识到,哪怕是借助异构架构,通过并行运算来提升运算效率的可能也是有限的。根据阿姆达尔定律(Amdahl’s Law),对于给定的运算量,当并行计算的线程趋向于无穷时,系统的加速比会趋向于一个上限,这个上限将是串行运算在总运算中所占比例的倒数。举例来说,如果在一个运算中,串行运算的比例是20%,那么无论我们在并行运算部分投入多少处理器,引入多少线程,其加速比也不会突破5。这就好像,如果我要写一本关于生成式AI的书,可以将一些资料查找的工作交给研究助手。显然,如果我有更多的研究助手,写书的进度也会加快。但这种加快不是无限的,因为最终这本书什么时候写完,还要看我自己“码字”的速度。 (2)分布式计算 采用聚集资源的方式来增强算力的另一种思路就是分布式计算。和高性能计算主要聚集本地计算单位不同,分布式计算则是将分散在不同物理区域的计算单位聚集起来,去共同完成某一计算任务。比如,刘慈欣在他的小说《球状闪电》中就提到过一个叫做SETI@home的科研计划(注:这个项目是真实存在的),这个计划试图将互联网上闲置的个人计算机算力集中起来处理天文数据,这就是一个典型的分布式计算用例。 分布式计算的一个典型代表就是我们现在经常听说的云计算。关于云计算的定义,目前的说法并不统一。一个比较有代表性的观点来自于美国国家标准和技术研究所(NIST),根据这种观点,“云计算是一种按使用量付费的模式。这种模式对可配置的IT资源(包括网络、服务器、存储、应用软件、服务)共享池提供了可用的、便捷的、按需供应的网络访问。在这些IT资源被提供的过程中,只需要投入很少的管理和交流工作”。 这个定义很抽象、很学院派,我们可以用一个通俗的比喻来对其进行理解。在传统上,用户主要是通过调用自有的单一IT资源,这就好比每家每户自己发电供自己用;而云计算则好像是(用大量算力设备)建了一个大型的“发电站”,然后将“电力”(IT资源)输出给所有用户来用。 根据云服务提供者所提供的IT资源的不同,可以产生不同的“云交付模式”(Cloud Delivery Model)。由于IT资源的种类很多,因此对应的“云交付模式”也就很多。在各类新闻报道中,最常见的“云交付模式”有三种: 第一种是IaaS,它的全称是“基础设施作为服务”(Infrastructure-as-a-Service)。在这种交付模式下,云服务的提供者供给的主要是存储、硬件、服务器和网络等基础设施。 第二种是PaaS,它的全称是“平台作为服务”(Platform-as-a-Service)。在这种交付模式下,云服务的提供者需要供应的资源更多,以便为使用者提供一个“就绪可用”(ready-to-use)的计算平台,以满足他们设计、开发、测试和部署应用程序的需要。 第三种是SaaS,也就是“软件作为服务”(Software-as-a-Service)。在这种交付模式下,云服务提供者将成品的软件作为产品来提供给用户,供其使用。 有了以上不同的云交付模式,用户就可以根据自己的需要来选择相应的IT资源。比如,如果元宇宙的用户需要更多的算力或存储,而本地的机器无法满足,那么就可以通过从云端来获取“外援”。一个云端GPU不够,那就再来几个,按需取用,丰俭由人,既方便,又不至于产生浪费。 需要指出的是,尽管从理论上看云计算可以很好地承担巨大运算和存储需求,但其缺陷也是很明显的。比较重要的一点是,在执行云计算时,有大量的数据要在本地和云端之间进行交换,这可能会造成明显的延迟。尤其是数据吞吐量过大时,这种延迟就更加严重。对于用户来说,这可能会对其使用体验产生非常负面的效果。 那么怎么才能克服这个问题呢?一个直观的思路就是,在靠近用户或设备一侧安放一个能够进行计算、存储和传输的平台。这个平台一方面可以在终端和云端之间承担起一个中介的作用,另一方面则可以对终端的各种要求作出实时的回应。这个思想,就是所谓的边缘计算。由于边缘平台靠近用户,因而其与用户的数据交换会更加及时,延迟问题就可以得到比较好的破解。 2、超越经典计算——以量子计算为例 无论是高性能计算还是分布式计算,其本质都是在运算资源的分配上下功夫。但正如我们前面看到的,通过这种思路来提升算力是有很多障碍的。因此,现在很多人希望从计算方式本身来进行突破,从而实现更高的计算效率。其中,量子计算就是最有代表性的例子。 我们知道,经典计算的基本单位是比特,比特的状态要么是0,要么是1,因此经典计算机中的所有问题都可以分解为对0和1的操作。一个比特的存储单元只能存储一个0或者一个1。而量子计算的基本单位则是量子比特,它的状态则可以是一个多维的向量,向量的每一个维度都可以表示一个状态。这样一来,量子存储器就比经典的存储器有很大的优势。 考虑一个有 N物理比特的存储器,如果它是经典存储器,那么它只能存储2的N次方个可能数据当中的任一个;而如果它是量子存储器,那么它就可以同时存储2的N次方个数据。随着 N的增加,量子存储器相对于经典存储器的存储能力就会出现指数级增长。例如,一个250量子比特的存储器可能存储的数就可以达到2的250次方个,比现有已知的宇宙中全部原子数目还要多。 在进行量子计算时,数学操作可以同时对存储器中全部的数据进行。这样一来,量子计算机在实施一次的运算中可以同时对2的N次方个输入数进行数学运算。其效果相当于经典计算机要重复实施2的N次方次操作,或者采用2的N次方个不同处理器实行并行操作。依靠这样的设定,就可以大幅度节省计算次数。 为了帮助大家理解,我们可以打一个并不是太恰当的比方:玩过动作游戏的朋友大多知道,在游戏中,我们扮演的英雄经常可以使用很多招数,有些招数只能是针对单一对象输出的;而另一些招数则可以针对全体敌人输出。这里,前一类的单体输出招数就相当于经典计算,而后一类的群体输出招数就相当于量子计算。我们知道,在面对大量小怪围攻的时候,一次群体输出产生的效果可以顶得上很多次单体输出的招数。同样的道理,在一些特定情况下,量子计算可以比经典计算实现非常大的效率提升。 举例来说,大数因式分解在破解公开密钥加密的过程中有十分重要的价值。如果用计算机,采用现在常用的Shor算法来对数N进行因式分解,其运算的时间将会随着N对应的二进制数的长度呈现指数级增长。1994年时,曾有人组织全球的1600个工作站对一个二进制长度为129的数字进行了因式分解。这项工作足足用了8个月才完成。然而,如果同样的问题换成用量子计算来解决,那么整个问题就可以在1秒之内解决。量子计算的威力由此可见一斑。 但是,在看到量子计算威力的同时,我们也必须认识到,至少到目前为止,量子计算的威力还只能体现对少数几种特殊问题的处理上,其通用性还比较弱。事实上,现在见诸报道的各种量子计算机也都只能执行专门算法,而不能执行通用计算。比如,谷歌和NASA联合开发的D-Wave就只能执行量子退火(Quantum Annealing)算法,而我国研发的光量子计算机“九章”则是专门被用来研究“高斯玻色取样”问题的。尽管它们在各自的专业领域表现十分优异,但都还不能用来解决通用问题。这就好像游戏中的群体攻击大招,虽然攻击范围广,但是对每个个体的杀伤力都比较弱。因此,如果遇上大群的小怪,群体攻击固然厉害,但如果遇上防御高、血条厚的Boss,这种攻击就派不上用处了。 从这个角度看,如果我们希望让量子计算大发神威,就必须先找出适合量子计算应用的问题和场景,然后再找到相应的算法。与此同时,我们也必须认识到,虽然量子计算的研发和探索十分重要,但是它和对其他技术路径的探索之间更应该是互补,而不是替代的关系。 3、通过改进算法节约算力 如果说,通过高性能计算、分布式计算,以及量子计算等手段来提升算力是“开源”,那么通过改进算法来节约算力就是“节流”。从提升计算效率、减少因计算而产生的经济、环境成本而言,开源和节流在某种程度上具有同等重要的价值。 在ChatGPT爆火之后,大模型开始越来越受到人们的青睐。由于在同等条件下,模型的参数越多、训练的数据越大,它的表现就越好,因此为了追求模型的更好表现,现在的模型正在变得越来越大。我们知道,现在的ChatGPT主要是在GPT-3.5的基础上训练的。在它出现之前,GPT共经历了三代。GPT-1的参数大约为1.17亿个,预训练数据为5GB,从现在看来并不算多;到了GPT-2,参数量就增加到了15亿个,预训练数据也达到了40GB;而到了GPT-3,参数量则已经迅速膨胀到了骇人的1750亿个,预训练数据也达到了45TB。为了训练GPT-3,单次成本就需要140万美元。尽管OpenAI并没有公布GPT-3.5的具体情况,但可以想象,它的参数量和预训练数据上都会比GPT-3更高。为了训练这个模型,微软专门组建了一个由1万个V100GPU组成的高性能网络集群,总算力消耗达到了3640“算力当量”——也就是说,如果用一台每秒计算一千万亿次的计算机来训练这个模型,那么大约需要近十年才能完成这个任务。 如果任由这种“一代更比一代大”的趋势持续下去,那么在未来几年,对算力的需求将会出现爆炸性的增长。一项最新的研究估计,在5年之后,AI模型需要的算力可能会是现在的100万倍。很显然,由此产生的经济和环境成本将会是十分惊人的。 令人欣慰的是,目前已经有不少研究者希望改进算法、优化模型来减少对算力的需求,并且已经取得了一定的成就。比如,就在今年1月3日,来自奥地利科学技术研究所 (ISTA)的研究人员埃利亚斯·弗朗塔(Elias Frantar)和丹·阿里斯特尔(Dan Alistarh)合作进行了一项研究,首次针对 100至 1000亿参数的模型规模,提出了精确的单次剪枝方法SparseGPT。SparseGPT可以将GPT系列模型单次剪枝到 50%的稀疏性,而无需任何重新训练。以目前最大的公开可用的GPT-175B模型为例,只需要使用单个GPU在几个小时内就能实现这种剪枝。不仅如此,SparseGPT还很准确,能将精度损失降到最小。在进行了类似的修剪之后,这些大模型在训练时所需要的计算量就会大幅减少,其对算力的需求也就会相应下降。 关于提升算力、支持人工智能发展的政策思考 随着ChatGPT引领了新一轮的人工智能热潮,市场上对算力的需求也会出现爆炸性的增长。在这种情况下,为了有力支撑人工智能的发展,就必须要通过政策的手段引导算力供给的大幅度增加。而要实现这一点,以下几方面的工作可能是最为值得重视的。 第一,应当加快对算力基础设施的建设和布局,提升对全社会算力需求的支持。如前所述,从目前看,分布式计算,尤其是其中的云计算是提升算力的一个有效之举。而要让云计算的效应充分发挥,就需要大力建设各类算力基础设施。唯有如此,才可以让人们随时随地都可以直接通过网络获得所需的算力资源。 这里需要指出的是,在布局算力基础设施的时候,应当慎重考虑它们的地域和空间分布,尽可能降低算力的成本。我们知道,不同的地区的土地、水、电力等要素的价格是不同的,这决定了在不同地区生产相同的算力所需要的成本也不尽相同。因此,在建设算力基础设施时,必须统筹全局,尽可能优化成本。需要指出的是,我国正在推进的“东数西算”工程就是这个思路的一个体现。由于我国东部各种资源的使用成本都要高于西部,因此在西部地区建立算力设施,就会大幅降低算力的供给成本,从而在全国范围内达到更优的配置效率。 第二,应当加强与算力相关的硬件技术及其应用的研发,为增加算力供应提供支持。与算力相关的硬件技术既包括基于经典计算的各种硬件,如芯片、高性能计算机等,也包括超越经典计算理论,根据新计算理论开发的硬件,如量子计算机等。从供给的角度看,这些硬件是根本,它们的性能直接关系到算力提供的可能性界限。因此,必须用政策积极促进这些硬件的攻关和研发。尤其是对于一些“卡脖子”的项目,应当首先加以突破。 这里需要指出的是,在进行技术研发的同时,也应该积极探索技术的应用。例如,我们现在已经在量子计算领域取得了一些成果,但是由于用例的缺乏,这些成果并没有能够转化为现实的应用。从这个意义上讲,我们也需要加强对技术应用的研究。如果可以把一些计算问题转化成量子计算问题,就可以充分发挥量子计算机的优势,实现计算效率的大幅提升。 第三,应当对算法、架构等软件层面的要素进行优化,在保证AI产品性能的同时,尽可能减少对算力的依赖。从降低AI计算成本的角度看,降低模型的算力需求和提升算力具有同等重要的意义。因此,在用政策的手段促进算力供给的同时,也应当以同样的力度对算法、架构和模型的优化予以同等的激励。 考虑到类似的成果具有十分巨大的社会正外部性,因此用专利来保护它们并不是最合适的。因此,可以积极鼓励对取得类似成功的人员和单位给予直接的奖励,并同时鼓励他们将这些成果向全社会开源;也可以考虑由政府出面,对类似的模型产品进行招标采购。如果有个人和单位可以按照要求提供相应的成果,政府就支付相应的费用,并对成果进行开源。通过这些举措,就可以很好地激励人们积极投身到改进模型、节约算力的事业中,也可以在有成果产出时,让全社会及时享受到这些成果。 总而言之,在人工智能突飞猛进的时代,算力可能是决定人工智能发展上限的一个关键因素。唯有在算力问题上实现突破,人工智能的发展才可能有根本保障。 来源:金色财经
lg
...
金色财经
2023-02-21
OpenAI与AIGC:改变人类生产范式 通往“万物的摩尔定律”
go
lg
...
等数学理论完备,算力运用克制的模型;和
深度
学习
模型,以多层神经网络的深度堆叠为结构,来达到高维度暴力逼近似然解的效果,理论上不优雅但能高效的运用算力进行并行计算。 神经网络模型在上世纪 90 年代出现,但在 2010 年前,统计学习模型仍是主流;后来得益于 GPU 算力的高速进步,基于神经网络的
深度
学习
模型逐渐成为主流。
深度
学习
充分利用了 GPU 擅长并行计算的能力,基于庞大的数据集、复杂的参数结构一次次实现出惊人的效果,刷新预期。大模型便是
深度
学习
模型参数量达到一定量级,只有大型科技公司才能部署的
深度
学习
模型。 2019年,OpenAI 从非营利组织变为营利性公司,接受微软 10 亿美金注资。这一合作奠定了他们有更多算力资源,并能依仗微软的云基础建设随时将大模型(Foundation Model)发布为商用 api。 与此同时,还有第三件事值得关注,大模型 AI 的研究方向出现了转变,从智能决策式 AI 转变为内容生成式 AI:原本主要大模型集中于游戏的智能决策体,如 DeepMind 开发的打败围棋冠军的 AlphaGo、OpenAI 开发的打败 Dota 职业选手的 OpenAI Five。 Transformer 模型(后文将详细介绍)的发布让 OpenAI 嗅到了更适合他们的机会——预训练语言模型。在那之后,他们开始在 AIGC 的方向上开枝散叶:沿着 2018 年时低调发布的 GPT 模型轨迹发布了一系列模型族,一次次刷新文本生成大模型的效果,印证 Sutton 提出的宗旨:充分运用海量算力让模型自由的进行探索和学习。 OpenAI的大模型发展之路 2019年2月:GPT-2 初版发布,1.2 亿参数量 2019年3月:OpenAI LP 成立 2019年7月:微软注资 10 亿美金 2019年11月:GPT-2 最终版发布,15 亿参数量,宣布暂时不开放使用为避免假信息伪造 2020年6月:GPT-3 发布,1750 亿参数量,后续开放 OpenAI API 作为商用 2021年1月:DALL·E 与 CLIP 发布 2021年10月:OpenAI Codex 发布,为 GPT-3 为 coding 场景的特化模型、Github Copilot 的上游模型 2022年4月:DALL·E2 发布 1、GPT-3,AI文本生成巅峰之作
深度
学习
兴起于计算机视觉领域的应用,而大模型的发展开始于 NLP 领域。在数据、算力充分发展的过程中,Transformer 模型以 attention 机制高度并行化的结构充分利用算力,成为 NLP 领域预训练模型的标杆。 著名的独角兽 Hugging Face 也是从对该模型的复现和开源起家。除了 attention 机制的高效之外,它还有两个重要特点:迁移学习(transfer learning)和自监督学习(self-supervised learning)。 顾名思义,迁移学习指在一个极庞大的数据集上充分学习历史上的各类文本,把经验迁移到其他文本上。 算法工程师会将第一步训练完成的模型存储下来,称为预训练模型。需要执行具体任务时,基于预训练版本,进行定制化微调(fine-tune)、或展示少许范例(few-shot/zero-shot)。 而自监督学习,得从机器学习中的监督学习讲起。前面提到若需要学习一匹马是否在奔跑,需要有一个完整标注好的大数据集。 自监督学习不需要,当 AI 拿到一个语料库,可以通过遮住一句话中的某个单词、遮住某句话的下一句话的方式,来模拟一个标注数据集,帮模型理解每个词的上下文语境,找到长文本之间的关联。该方案大幅提高了对数据集的使用效率。 谷歌发布的 BERT 是 Transformer 时代的先驱,OpenAI 发布的 GPT-2 以相似的结构、更胜一筹的算力后来居上。直到2020年6月,OpenAI 发布了 GPT-3,成为该模型族,甚至整个文本生成领域的标杆。 GPT-3 的成功在于量变产生质变:参数比 GPT-2 多了两个数量级(1750亿vs 15亿个参数),它用的最大数据集在处理前容量达到 45TB。 如此巨大的模型量级,效果也是史无前例的。给 GPT-3 输入新闻标题”联合卫理公会同意这一历史性分裂“和副标题”反对同性恋婚姻的人将创建自己的教派“,生成了一则以假乱真的新闻,评估人员判断出其为AI生成的准确率仅为 12%。以下是这则新闻的节选: 据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了一次历史性的分裂:要么创立新教派,要么”保持神学和社会意义上的保守“。大部分参加五月教会年度会议的代表投票赞成进一步禁止 LGBTQ 神职人员的任命,并制定新的规则”规范“主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划:于2020 年组成一个新教派”基督教卫理公会“。 要达到上述效果,成本不容小觑:从公开数据看,训练一个 BERT 模型租用云算力要花约 1.2 万美元,训练 GPT-2 每小时要花费 256 美元,但 OpenAI 并未公布总计时间成本。考虑到 GPT-3 需要的算力是 BERT 的 2000 多倍,预估发布当时的训练成本肯定是千万美元级别,以至于研究者在论文第九页说:我们发现了一个 bug,但没钱再去重新训练模型,就先这么算了吧。 2、背后DALL·E 2,从文本到图片 GPT-3杀青后,OpenAI 把大模型的思路迁移到了图片多模态(multimodal)生成领域,从文本到图片主要有两步:多模态匹配:将 AI 对文本的理解迁移至对图片的理解;图片生成:生成出最符合要求的高质量图片。 对于多模态学习模块,OpenAI 在 2021 年推出了 CLIP 模型,该模型以人类的方式浏览图像并总结为文本内容,也可以转置为浏览文本并总结为图像内容(DALL·E 2中的使用方式)。 CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比较简单:在一个图像-文本对数据集上训练一个比对模型,对来自同一样本对的图像和文本产生高相似性得分,而对不匹配的文本和图像产生低相似性分(用当前图像和训练集中的其他对的文本构成不匹配的样本对)。 对于内容生成模块,前面探讨了文本领域:10 年代末 NLP 领域生成模型的发展,是 GPT-3 暴力出奇迹的温床。而计算机视觉 CV 领域 10 年代最重要的生成模型是 2014 年发布的生成对抗网络(GAN),红极一时的 DeepFake 便是基于这个模型。GAN的全称是 Generative Adversarial Networks——生成对抗网络,显然”对抗“是其核心精神。 注:受博弈论启发,GAN 在训练一个子模型A的同时,训练另一个子模型B来判断它的同僚A生成的是真实图像还是伪造图像,两者在一个极小极大的博弈中不断变强。 当A生成足以”骗“过B的图像时,模型认为它比较好地拟合出了真实图像的数据分布,进而用于生成逼真的图像。当然,GAN方法也存在一个问题,博弈均衡点的不稳定性加上
深度
学习
的黑盒特性使其生成。 不过 OpenAI 大模型生成图片使用的已不是 GAN 了,而是扩散模型。2021年,生成扩散模型(Diffusion Model)在学界开始受到关注,成为图片生成领域新贵。 它在发表之初其实并没有收到太多的关注,主要有两点原因: 其一灵感来自于热力学领域,理解成本稍高; 其二计算成本更高,对于大多高校学术实验室的显卡配置而言,训练时间比 GAN 更长更难接受。 该模型借鉴了热力学中扩散过程的条件概率传递方式,通过主动增加图片中的噪音破坏训练数据,然后模型反复训练找出如何逆转这种噪音过程恢复原始图像,训练完成后。扩散模型就可以应用去噪方法从随机输入中合成新颖的”干净“数据。该方法的生成效果和图片分辨率上都有显著提升。 不过,算力正是大模型研发公司的强项,很快扩散模型就在大公司的调试下成为生成模型新标杆,当前最先进的两个文本生成图像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都基于扩散模型。DALL·E 2 生成的图像分辨率达到了 1024 × 1024 像素。例如下图”生成一幅莫奈风格的日出时坐在田野里的狐狸的图像“: 除了图像生成质量高,DALL·E 2 最引以为傲的是 inpainting 功能:基于文本引导进行图像编辑,在考虑阴影、反射和纹理的同时添加和删除元素,其随机性很适合为画师基于现有画作提供创作的灵感。比如下图中加入一只符合该油画风格的柯基: DALL·E 2 发布才五个月,尚没有 OpenAI 的商业化api开放,但有 Stable Diffusion、MidJourney 等下游公司进行了复现乃至商业化,将在后文应用部分介绍。 3、OpenAI的使命——开拓通往 AGI 之路 AIGC 大模型取得突破,OpenAI 只开放了api和模型思路供大家借鉴和使用,没去做下游使用场景的商业产品,是为什么呢?因为 OpenAI 的目标从来不是商业产品,而是通用人工智能 AGI。 OpenAI 的创始人 Sam Altman 是 YC 前总裁,投出过 Airbnb、Stripe、Reddit 等明星独角兽(另一位创始人 Elon Musk 在 18 年因为特斯拉与 OpenAI ”利益相关“离开)。 他在 21 年发布过一篇著名的博客《万物的摩尔定律》,其中提到 OpenAI,乃至整个 AI 行业的使命是通过实现 AGI 来降低所有人经济生活中的智能成本。这里所谓 AGI,指的是能完成平均水准人类各类任务的智能体。 因此,OpenAI 始终保持着学术型企业的姿态处于行业上游,成为学界与业界的桥梁。当学界涌现出最新的 state-of-art 模型,他们能抓住机会通过海量算力和数据集的堆叠扩大模型的规模,达到模型意义上的规模经济。 在此之后克制地开放商业化 api,一方面是为了打平能源成本,更主要是通过数据飞轮效应带来的模型进化收益:积累更富裕的数据优化迭代下一代大模型,在通往 AGI 的路上走得更坚实。 定位相似的另一家公司是 Deepmind——2010年成立,2014 年被谷歌收购。同样背靠科技巨头,也同样从强化学习智能决策领域起家,麾下的 AlphaGo 名声在外,Elon Musk 和 Sam Altman 刚开始组局创办 OpenAI,首要的研究领域就是步 AlphaGo 后尘的游戏决策 AI。 不过 19 年后,两者的研究重心出现了分叉。DeepMind 转向使用 AI 解决基础科学如生物、数学等问题:AlphaFold 在预测蛋白质结构上取得了突破性的进展,另一个 AI 模型 AlphaTensor 自己探索出了一个 50 年悬而未决的数学问题:找到两个矩阵相乘的最快方法,两个研究都登上了 Nature 杂志的封面。而 OpenAI 则转向了日常应用的内容生成 AIGC 领域。 AIGC大模型是通往 AGI 路上极为重要、也有些出乎意料的一站。其重要性体现在 AI 对人类传达信息的载体有了更好的学习,在此基础上各个媒介之间的互通成为可能。 例如从自然语言生成编程语言,可以产生新的人机交互方式;从自然语言生成图片和视频,可以革新内容行业的生产范式。意外性则是,最先可能被替代的不是蓝领,而是创作者,DeepMind 甚至在协助科学家一起探索科研的边界。 OpenAI 的模式也给了下游创业者更多空间。可以类比当年预训练语言模型发展初期,Hugging Face把握机会成为大模型下游的模型开源平台,补足了模型规模膨胀下机器学习民主化的市场空间。 而对 AIGC 模型,未来会有一类基于大模型的创业公司,把预训练完成的 AIGC 模型针对每个子领域进行调优。不只需要模型参数优化,更要基于行业落地场景、产品交互方式、后续服务等,帮助某个行业真正用上大模型。 正如 AI 的 bitter lesson 一样矛盾,投资者需要短期投资回报率、研究者需要短期投稿成功率,尽管OpenAI 走在通往 AGI 正确的路上,这条路道阻且长,短期很难看到极大的突破。而 Sam Altman 展望的大模型应用层公司很有可能有更高的高投资回报,让我们来介绍下主要的分类与创业者。 百家争鸣的 AIGC 大模型应用层 对应 OpenAI 大模型发布的顺序,模型应用层相对最成熟的是文本生成领域,其次是图片生成领域,其他领域由于还未出现统治级的大模型相对落后。 文本领域天然应用场景丰富,且 GPT-3 开放 api 很久,细分赛道很多。大致可以根据生成内容不同分为两类:机器编程语言生成、人类自然语言生成。前者主要有代码和软件行为的生成等,后者主要有新闻撰写、文案创作、聊天机器人等。 而图片领域当前还专注于图片自身内容的生成,预期随着未来3D、视频相关内容生成能力的增强,会有更多结合不同业务场景如游戏、影视这样细分领域的创业公司。 以下是海外各子领域创业公司的梳理,接下来将针对几个领域的重要公司进行介绍。 1、编程语言 文本领域最成熟的应用暂时不在人类自然语言,而是在代码等机器语言的生成领域。因为机器语言相对更结构化,易学习;比如鲜有长文本的上下文关系、基于语境的不同含义等情况。 (1)代码生成:Github Copilot 代表公司是微软出品的 Github Copilot,编程中的副驾驶。该产品基于 OpenAI 专门用 GPT-3 为编程场景定制的AI模型 Codex。使用者文字输入代码逻辑,它能快速理解,根据海量开源代码生成造好的轮子供开发者使用。提高一家科技公司 10% 的 coding 效率能带来很大收益,微软内部已进行推广使用。 相比低代码工具,Copilot 的目标群体是代码工作者。未来的低代码可能是两者结合:低代码 UI 界面实现代码框架搭建,代码子模块通过 Copilot 自动生成。 正如 Copilot 的 slogan:Don’t fly solo,没有 Copilot 的帮助 coder 的工作会变得繁冗,没有 coder 的指引 Copilot 生成的内容可能会出现纰漏。也有用户报告了一些侵犯代码版权、或代码泄露的案例,当前技术进步快于版权法规产生了一定的空白。 (2)软件行为生成:Adept.ai Adept.ai 是一家明星创业公司。创始团队中有两人是Transformer 模型论文作者,CEO 是谷歌大脑中大模型的技术负责人,已经获得 Greylock 等公司 6500 万美元的 A 轮融资。 他们的主要产品是大模型 ACT-1,让算法理解人类语言并使机器自动执行任务。目前产品形态是个 chrome 插件,用户输入一句话,能实现单击、输入、滚动屏幕行文。在展示 demo中,一位客服让浏览器中自动记录下与某位顾客的电话,正在考虑买 100 个产品。这个任务需要点击 10 次以上,但通过 ACT-1 一句话就能完成。 软件行为生成颠覆的是当下的人机交互形式,使用文字或语音的自然语言形式来代替当下人与机器的图形交互模式(GUI)。大模型成熟后,人们使用搜索引擎、生产力工具的方式都将变得截然不同。 2、自然语言 自然语言下还有多个应用型文本生成领域值得关注:新闻撰写、文案创作、对话机器人等。 (1)新闻撰写 最著名的是 Automated Inights。他们的结构化数据新闻撰写工具叫做 wordsmith,通过输入相应数据和优先级排序,能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出 300 余篇财报相关报道,在雅虎体育新闻中也已经崭露头角。据分析师评价,由 AI 完成的新闻初稿已接近人类记者在 30 分钟内完成的报道水准。 Narrative Science是另一家新闻撰写生成公司,其创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。 (2)文案创作 该领域竞争较为激烈,有copy.ai、Jasper、copysmith 等公司。他们基于 GPT-3 的能力加入了文案领域的人工模板与结构,为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith 为例: (3)对话机器人 前面提到的 Adept.ai 由Transformer 模型的一作和三作联合创立;而二作也创业了,他创办的 Character.ai 是当前对话机器人中使用效果最逼真的。 该对话机器人可以自定义或使用模板来定义角色的家庭、职业、年龄等,在此基础上保持一贯的设定和符合设定的对话风格。经常能体现出一定的共情对话能力带给人惊喜,并且支持多语言互通。 比如他们有已训练好的马斯克等名人和一些动漫角色,与他们对话会有很棒的代入感。 而商业化的对话机器人,在客服、销售等行业有巨大的市场空间,但如今还为成熟。 主要出现的问题有二: 其一,客服、销售行业遇到的客户往往情绪状态不稳定,AI 难以对情绪进行适应并调整对话内容; 其二,AI 的多轮对话能力较弱,无法保证持续有效的跟进问题。 (4)创作性文本 AI 对于长文本创作有一定困难,难以保持1000字以上的文本创作后仍能进行上下文的联系。 但基于短文本创作仍有一些有趣的应用,例如基于GPT-3的 AI Dungeon,可以引导 AI 创造一个虚拟游戏世界观。该领域进一步的成长需要期待未来 3-5 年,有成熟的能产出千字内容的 AI 出现。 3、多模态图片 DALL·E2 是极具突破性的 AIGC 大模型,但距离丰富生产力和创造力的成熟产品还有差距。因此有研究者顺着 DALL·E 和 CLIP 的思路开发了开源版本的扩散模型,就像当年的 Hugging Face 那样,并将其根据创作者社区的反馈转变为更成熟易用的商业产品。接下来就介绍几个主要出圈的模型: (1)Disco Diffusion 最早出圈的 AI 绘图工具是开源模型Disco Diffusion。发布时间比 DALL·E 2 稍晚,同样也是 CLIP + Diffusion Model 的结构,生成效果让许多插画师担心起了失业。 尽管很多插画师和 AI 工具爱好者的推荐都认可了该工具的易用性和生成效果的出众,但其生成时间略长有待优化,可以认为是大家对图片生成大模型的初体验。 (2)MidJourney 该模型发布后不久,Disco Diffusion 的开发者 Somnai 加入了 MidJourney,和团队一起打造了一款产品化的 Disco Diffusion。 Midjourney 的创始人 David Holz 并不是以CV(计算机视觉)研究为主,更关注人机交互。产品公测和主要交流平台都基于Discord,使用 Discord Bot 进行交互,打造了相当良好的社区讨论环境。 使用中印象深刻的有几个重要功能:MidJourney 画廊中可以看到每时每刻创作者们用 MJ 创作出的作品,用户可以对作品进行打分,每周排名靠前的作品将得到额外的 fast GPU 时间奖励。 同时,MJ官方还为用户贴心的提供了引导语 prompt 集合和 AI 擅长的风格指南,指导用户如何最高效的生成出他们想要的图片。 基于良好的产品和社区体验,MidJourney 的付费用户量也是目前最大的。 目前收费模式采用了订阅制,个人用户有两个档位,每月最多 200 张图片(超额另收费)的 10 美元/月,以及”不限量“图片的 30 美元/月;对企业客户,单人一年收费仅有 600 美元,且生成的作品可以商用(当前法规尚不完善,仍可能存在一定版权问题)。 (3)Stable Diffusion 如果说 MidJourney 是一个勤勤恳恳的绩优生,那么 Stability.ai 则是天赋异禀技术力强、诞生之初就备受 VC 追捧的富二代,公司估值已达到十亿美元。产品 Stable Diffusion 首要目标是一个开源共创模型,与当年的 Hugging Face 神似。 创始人 Emad 之前是对冲基金经理,用自己充裕的资金联合 LMU 和 Runaway ML开发了开源的 Stable Diffusion,在 Twitter 上使用扎克伯格在 Oculus 发布会上的照片作为背景,号召SD会成为”人类图像知识的基础设施“,通过开源让所有人都能够使用和改进它,并让所有人更好地合作。 Stable Diffusion 可以认为是一个开源版本的DALL·E2,甚至不少使用者认为是当前生成模型可以使用的最佳选择。官方版本部署在官网 Dream Studio 上,开放给所有用户注册。 相比其他模型,有很多可以定制化的点。不过官网只有 200 张免费额度,超过需要付费使用,也可以自行使用开源 Colab 代码版无限次使用。此外,Stable Diffusion 在压缩模型容量,希望使该模型成为唯一能在本地而非云端部署使用的 AIGC 大模型。 05 AIGC大模型的未来展望 1、应用层:多模态内容生成更加智能,深入各行业应用场景 上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后, AIGC 内容能进入商用后,必然会更深入地与业界的实际应用进行结合: 以游戏行业为例, AI 作画给了非美术专业工作者,如游戏策划快速通过视觉图像表达自己需求和想法的机会;而对美术画师来说,它能够在前期协助更高效、直接地尝试灵感方案草图,在后期节省画面细节补全等人力。 此外,在影视动画行业、视频特效领域,甚至是文物修复专业,AI 图片生成的能力都有很大想象空间。当然,这个领域 AI 的能力也有着不小的进步空间,在下面的未来展望部分进行阐发。 目前 AIGC 存在 Prompt Engineering 的现象,即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷,被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化,不会是常态,但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。 2、模态层:3D生成、视频生成 AIGC 未来3-5年内有明显进步 多模态(multimodal)指不同信息媒介之间的转换。 当前 AI 作图过程中暴露的问题会成为视频生成模型的阿喀琉斯之踵。 例如:AI 作画的空间感和物理规则往往是缺失的,镜面反射、透视这类视觉规则时常有所扭曲;AI 对同一实体的刻画缺少连续性。根本原因可能是目前
深度
学习
还难以基于样本实现一些客观规则泛化,需要等待模型结构的优化进行更新。 3D生成领域也有很大价值:3D 图纸草图、影视行业模拟运镜、体育赛场现场还原,都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。 2020年,神经辐射场(NeRF)模型发布,可以很好的完成三维重建任务:一个场景下的不同视角图像提供给模型作为输入,然后优化 NeRF 以恢复该特定场景的几何形状。 基于该技术,谷歌在2022年发布了 Dream Fusion 模型,能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间,预期在未来3-5年内会取得突破性进展,推动视频生成的进步。 3、模型层:大模型参数规模将逼近人脑神经元数量 近年的大模型并未对技术框架做颠覆性创新,文本和图像生成领域在大模型出现前,已有较成熟方案。但大模型以量变产生质变。 从神经网络角度看,大脑有约 100 万亿神经元, GPT-3 有 1750 亿参数,还相差了 1000 倍的数量级,随着算力进步可以发展的空间还很大。 神经网络本质是对高维数据进行复杂的非线性组合,从而逼近所观测数据分布的最优解,未来一定会有更强的算力、更精妙的参数堆叠结构,来刷新人们对AI生成能力的认知。 4、成本结构决定大模型市场的马太效应 大模型最直接的成本便是能源成本(energy cost),GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ,大科技公司才能训练大模型。 但随着近年模型压缩、硬件应用的进步,GPT-3 量级的模型成本很可能已降至百万美元量级,Stable Diffusion 作为一个刚发布一个月的产品,已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。 在这样的背景下,算力成本在未来必然会逐渐变得更合理,但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。 大模型有明显的先发优势,来自巨大的隐形成本:智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化,甩开后发的竞争者,达到模型性能的规模效应。 AI 的进化来自于数据的积累和充分吸收。
深度
学习
,乃至当前的所有机器学习都是基于历史预估未来,基于已有的数据给到最接近真实的可能。 正如前文讨论的,OpenAI 的目标从来不是留恋于某个局部行业的商业产品,而是通过模型规模经济,不断地降低人类社会全局的智能成本,逼近通用人工智能 AGI。规模经济正体现在智能成本上。 5、虚拟世界的 AGI 会先于现实世界诞生 从更宏观的视角上,虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景,都对 Corner Case 要求极高。 对于AI模型而言,一件事超过他们的经验范畴(统计上out of distribution),模型将立马化身人工智障,不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损,造成数据积累过程中极大的试错成本。 虚拟世界则不同,绘图时遇到错位扭曲的图片,大家会在 Discord 中交流一笑了之;游戏 AI 产生奇怪行为,还可能被玩家开发出搞怪玩法、造成病毒传播。 因此虚拟世界,尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本,能很顺畅地形成低成本的正向循环。 伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成,虚拟世界内容场景下的 AI 很可能更早触及到 AGI。 来源:金色财经
lg
...
金色财经
2023-02-21
上一页
1
•••
97
98
99
100
101
•••
109
下一页
24小时热点
特朗普大消息!贸易战将重大升级:特朗普宣布将采取影响“所有人”的关税措施
lg
...
“西方客户感到震惊”!美媒:这是中国国家主席习近平向特朗普发出的警告
lg
...
事关马斯克、俄乌冲突!特朗普突传2个市场重大行动……
lg
...
详解非农:美国1月就业增长放缓,修订数据显示去年劳动力市场不及预期强劲
lg
...
突发消息!特朗普宣布“解雇”拜登 撤销安全许可、终止接收机密情报信息
lg
...
最新话题
更多
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
19讨论
#链上风云#
lg
...
59讨论
#VIP会员尊享#
lg
...
1719讨论
#比特币最新消息#
lg
...
861讨论
#CES 2025国际消费电子展#
lg
...
21讨论