来源:“峰瑞资本”(ID:freesvc),作者:陈石
“ChatGPT”可能是从2022年底至今,最为出圈的科技热词之一。GPT是Generative Pre-trained Transformer的缩写,表示生成型预训练变换模型。这个由OpenAI研发的语言模型激起了人们对AI技术新一轮的热情。人们与ChatGPT畅谈古今,请它翻译文本、编代码、写文章。(p.s.猜猜看,这篇文章是不是ChatGPT写的?)
爆火背后,我们试图对ChatGPT有更多理解。如果说以ChatGPT为代表的AIGC(AI-generated content,AI生产内容)本质上是技术革命,那么,脱离了对技术的认知来讨论这个议题,难免会出现偏差。
在这篇报告,我们会先梳理ChatGPT发展的历史沿革:它从哪里来,到底是什么技术在驱动它向前。我们的思考也会围绕人们对它的讨论而展开:它能火多久,有机会成为“人类大脑”或通用人工智能(AGI)吗?同样重要地,我们会把落点放在创投行业,来探讨与AIGC相关的创业及投资机会。
▍ChatGPT的本源——语言模型
ChatGPT其实是一种语言模型。依据OpenAI官方的介绍,ChatGPT已具备理解和生成人类语言文本的能力,可以跟人类轻松对话。
图片来源:OpenAI官网
人类的语言非常复杂,而比语言更复杂的,是创造语言的思维。人们曾经试图给语言建模,但是一直没有取得显著性的成功。而ChatGPT则为语言建模打开了新的窗口,这也是它的诞生轰动全球的原因之一。
Wikipedia对语言模型的定义是:“单词序列的概率分布,给定任何长度为m的单词序列,语言模型通过对语言的文本语料库进行训练,来生成概率分布”。斯坦福的公开课说得更为直接:“语言模型就是用来预测下一个出现的词的概率”。(斯坦福的定义概括了GPT的核心原理,而不是BERT类语言模型的原理。或许这能从侧面反映,人们已将GPT采用的技术路线,视为主流语言模型路线。)
GPT系列的语言模型,其主要目标是预测下一个单词。比如,前半句是“the students opened their”,语言模型要预测的是下一个单词出现“books”或者“laptops”或者“exams”等词汇的概率分别是多少。语言模型的技术原理虽然简单,但是却衍生出了ChatGPT这样智能、有复杂应用场景的产品。
▍ChatGPT可能是当前最成功的大型语言模型,我们正在经历iPhone Moment
ChatGPT可能是目前最成功的语言模型,人们把当下这个ChatGPT诞生的时刻称为“iPhone moment”。
GPT是Generative Pre-trained Transformer 的缩写。Transformer神经网络算法是当前最新的一种算法模型,我们会在下文展开。GPT系列模型都是语言模型,是新型神经网络算法、新型模型训练方式加上海量数据算力多重因素叠加产出的成果。
GPT模型有几个主干版本,从 GPT-1、GPT-2、GPT-3演进到最新的GPT-3.5版本。
当下人们使用的ChatGPT是在3.5版本的基础上,专门针对人类需求做了大量微调,引导模型输出更符合人类需求的结果。这让GPT模型逐渐“社会化”,变得更像人。经过微调的ChatGPT“情商”变高了,不再只是个话痨,也不再那么口无遮拦。
▍ChatGPT的诞生过程
图片来源:微信公众号@AI语者
在ChatGPT问世之前,GPT模型经历了怎样的发展历程?
2017年6月,Google发布Transformer这一神经网络算法模型,它为大型语言模型的发展奠定了基础。
一年之后,OpenAI公司推出了GPT-1,GPT-1采用语言模型预训练+微调训练两阶段的训练方法,在问答和常识推理、语义相似度、分类等任务中,取得了还不错的语言任务执行效果。
2018年10月,Google推出另一个语言模型——BERT,效果超过GPT-1。
图片来源:知乎@雅正冲蛋
GPT和BERT都是基于Transformer衍生出的算法,但在技术路线上各有侧重。GPT基于 Transformer 右边部分,叫解码器。BERT基于 Transformer 的左边部分,叫编码器。
GPT的技术原理是预测下一个词,你可以看作是“文字接龙”,你写出前面的句子,由GPT来猜下一个词。但BERT更像是“完形填空”,其技术原理是把一句话中某个词给遮挡住,然后请BERT来猜。
解码器擅长创作,编码器擅长理解,当时它们要做的更多是屏蔽语言模型(Masked LM,类似“完形填空”)、相邻句子判断(Next Sentence Prediction,判断句子是否能相连)这类偏阅读理解的任务,因此BERT占了上风。
2019年,GPT-2发布,它采用15亿个参数的Transformer解码器,在当时是个比较大的模型。相比BERT,OpenAI研究人员发现,GPT-2预训练的语言模型无需微调训练,可直接执行多种下游任务。这个发现坚定了研究人员沿着现有技术路线,继续研发的决心。
2020年5月,GPT-3诞生,它采用了史无前例的1750亿参数的Transformer解码器,用了接近5000亿单词的文本训练数据。整个训练过程可以说是“大力出奇迹”,让GPT-3在文字生成方面实现质的飞跃。GPT-3除了可以出色完成文字生成、翻译、问答和文本填空等语言类任务外,还“涌现”出了其他一些智能,包括上下文学习,以及更强大的零样本和少样本执行任务的能力,等等。
GPT-3生成的文本质量非常高,有时候人们甚至难以区分文本到底是人类写的,还是GPT-3生成的。
基于GPT-3,已经衍生出很多应用,人们用GPT-3来创作各种类型的文本。有人用它写了一篇新闻,被某热门新闻点评网站排到头部。一家名为Jasper的公司利用GPT-3为企业提供商业文本写作服务,2022年其收入达到9000万美元左右。
GPT-3之后,OpenAI通过增加程序代码训练和人类反馈强化学习等多种训练手段,并将主版本升级到GPT-3.5。最终,2022年11月,ChatGPT横空出世。
▍训练GPT-3模型的三“大”要素:算法、数据、算力
我们称GPT-3为大模型,这个“大”体现在哪些地方?
首先是算法。GPT-3采用的是Transformer的解码器,具有1750亿个参数和2048个Token(可简单理解为单词,下同)的训练文本长度。
图片来源:OpenAI团队论文 《Language Models are Few-Shot Learners》
第二是数据。上图是GPT-3的训练数据,总共接近5000亿个token的文本,主要包括Common Crawl、Webtext2、Books1、Book2、Wikipedia等等。其中占比最大的训练数据是Common Crawl,它是一个开源的数据集,抓取并保存了全球大量网页的数据。
第三是算力。据微软发布的信息, OpenAI 使用一台全球排名前5的超级计算机系统来训练GPT-3,该系统拥有超过28.5万个CPU核心,1万个GPU和每秒400G的网络。据悉其训练成本约为1200万美元。
ChatGPT诞生以来,引发的讨论非常多。那么说回来,人们如何看待这个新事物,对它又有什么期待?虽然众说纷纭,有3个议题是被频繁提到的。
▍人们肯定ChatGPT是一个称职的语言模型
首先,ChatGPT是迄今为止最成功的人类语言模型,已经具备形式语言能力(洞悉语言的规则模式等知识)。
ChatGPT具备理解和生成人类语言文本的能力,可跟人类轻松对话。它用数据驱动的大型神经网络的计算方式,某种程度上解码了人类语言的内部规律。这个内部规律不是某种公式,而是一个神秘、暂不被人类理解的权重参数矩阵。
以前,人们认为算法模型如果仅靠输入文本,很难获取关于语言的知识。但如今,ChatGPT可以从文本中直接学习语言的层次结构和抽象类别等,这是一种无监督学习的能力。
此外,ChatGPT也不只是个话痨。它可以写作文、创作诗歌、撰写商业文本、翻译、做阅读理解、代码理解和生成等。可以说,作为一个语言模型,ChatGPT已经比较称职。
▍人们期待ChatGPT具有思维能力
人们对ChatGPT的期望不仅仅是语言模型,人们甚至期待ChatGPT成为一个思维机器,发展出功能语言能力(用语言思考和做事的能力)。
ChatGPT“涌现”出一些智能,包括上下文学习(理解和学习人类对话输入文字的能力)、世界知识抽象(例如事实性知识和常识)、执行泛化任务(包括没有做过的新任务)、复杂推理等。然而,当前ChatGPT的这些功能都还不算强大,出错甚至崩溃时有发生。
当前,人们在思维机器方向的探索有很多,例如有一种借助思维链(Chain of Thought)的方法,试图引导或者优化语言模型展现出复杂的推理能力。这些研究方向的进展仍在持续。
上图展示的是,一位科研人员在跟ChatGPT的对话中,通过分步骤提示引导的示例训练(引导过程未展示),使ChatGPT展现出分步骤思考和计算的能力。据分析,ChatGPT的这个能力来自GPT-3.5模型本身,思维链训练方法只是让它意识到应该用这种方式来思考和回答问题。整个过程有点类似老师辅导学生做题。
虽然这道题对于10岁的孩子来说很容易,但对语言模型来说却很难,主要是由于数学和语言混合在一起。这类问题只是开始,当前思维链的前沿科研工作已经转向更有难度的问题,例如高中、大学,甚至是国际数学奥林匹克问题。
加利福尼亚大学洛杉矶分校(UCLA)近期的一篇论文发现,ChatGPT似乎展现出了类比推理的能力。
什么叫类比推理?推理分三种,包含演绎、归纳、类比。“类比推理通常被视为人类抽象和概括能力的典型能力。在广泛的问题类型中,ChatGPT达到或者超越人类水平...显示出这种零样本类比推理的能力。”
然而,ChatGPT的推理能力因其对世界缺乏物理理解而受限,因为它仅仅依靠文本输入,缺少视觉(图像和视频)、声音、嗅觉等多模态数据输入。文本对世界的物理描述是有限的,比如你很难通过文字描述清楚一间屋子里不同物品的位置具体,相反,看一张关于这间屋子的图片,物品的位置信息就一目了然。
听说GPT-4将于2023年发布,届时会加入视觉等多模态数据输入,这将有望进一步提升它的智能。
▍对于ChatGPT能否成为“人类大脑”或通用人工智能,人们持有巨大争议
目前,针对ChatGPT是否能够变成“人类大脑”或者通用人工智能(AGI),争议还非常大。Yan Lecun是深度学习的三巨头之一,他也是Meta(原Facebook)公司的首席AI科学家。他认为机器和人类不一样,人类会在心智里面构建一个虚拟世界,进行推理和模拟,这点目前机器做不到。
著名语言学家乔姆斯基在2019年的一次采访中提到,深度学习更偏工程,有点像推土机,可以使用,但它没有能力告诉你人类语言的任何事情。(注:ChatGPT这类语言模型可以输出很精彩的文本,但是我们没有确凿证据证明它真正掌握了语言的规律,当然也有可能是它掌握了规律,但人类无法理解。)
Kyle Mahowald等学者认为,“擅长语言” 未必 “擅长思考”。虽然人类的语言和思想是不可分离的,但专⻔处理语言的人脑区域,与负责记忆、推理和社交技能的人脑区域是分开的。因此不应该对语言模型有过多期望。
Kyle Mahowald提到了一个GPT-3没能理解的失败案例:怎么把沙发放到你家屋顶上。
就像我们在上文提到的,屋顶、沙发、起重机等更偏世界的物理知识,对于人类来说,很容易就想到用各种办法把沙发放到屋顶上去,但你很难让ChatGPT理解这样的操作思路。这个例子也说明世界物理知识的输入,特别是视觉等多模态数据输入的重要性。
讲完ChatGPT究竟是什么,我们再来讲一下背后的技术。
我们在上文提到,ChatGPT相当于用“文字接龙”这样简单的技术原理来训练和使用语言模型,从而实现跟人类的高质量智能文本对话。这个技术原理,理论上是有升级和改善机会的,从而可能达到更好的效果。
在神经网络参数量方面,业界有人认为有优化空间,例如是否可以用参数量较小的模型达到同等效果。2048个token文本输入窗口的设计及计算机制,也可能有优化空间。例如当前有人试图让ChatGPT写推理小说,但推理小说里面的推理线索往往不易察觉且距离较远(例如好几个章节之前的一个小线索),这个距离远远超出2048个token文本的窗口,如何把当前窗口之外的知识信息容纳进来,也存在优化可能。
整体而言,作为底层算法模型的Transformer在2017年6月才诞生,现在还处在发展早期,在快速迭代和改进完善之中,应该还有很多发展空间。
此外,前面提到的多模态数据输入,会给GPT-4带来什么样的能力涌现和性能提升,也是业内人士和群众翘首以待的。
▍人类可以从ChatGPT中学到什么关于语言的规律?
在对人类语言的探索上,ChatGPT比以往的任何产品都走得更远更深。我们人类可以从ChatGPT身上学到什么?
Stephen wolfram这名科学家认为,人类语言可能没那么复杂,只是因为我们人类没有能力理解和掌握其背后的规律;而ChatGPT用基于神经网络的算法,成功解码了人类语言的本质。
据OpenAI公开的GPT-2的论文,GPT-2的训练数据是纯英语文本(做了非英语文本过滤)。即便如此,它还是显示出一些多语言能力,并且展现出非常出色的法英互译能力,尽管只是接受了10MB左右残留的法语文本训练数据。
这个现象引发了人们的思考,当前人类在语言学习方面花费大量的时间和精力,这个学习效率是不是有提升的空间?我们能不能向语言模型学习,更加有效率地学习人类语言?
ChatGPT在生成文本时,是每次选择一个词,这个词是在语言模型给出的概率表中做出的选择。当前科研人员的发现是,如果每次都选择概率最高的词汇,理论上是最优解,最后呈现却往往是一篇非常普通的文章;如果不是每次选择最优解,例如随机选择排名稍微靠后一点的,却有更大机会生成一篇精彩文章。这也是个有意思的未解之谜。
以前,我们可能认为创作一篇散文或者一首诗,背后是人类精心的构思和创造。但对于AI而言,创作意味着概率和选择,我们认为的精彩文章创作原来只是AI枯燥的选择过程而已。由ChatGPT反观,可能人类对语言本身的奥秘还知之甚少。
▍语言特征空间的单词分布
GPT把文字向量化了,建立了语言的高维特征空间,也称为隐含空间(Latent Space)。
GPT-2中每个词是一个768维的向量,GPT-3中每个词则是12288维的向量。每一个维度代表着一个属性,相当于GPT-3用1万多种属性,来描述人类语言中的词汇特征。
Stephen wolfram试图打开人类语言的特征空间,来观察其中的规律。他选择规模较小的GPT-2的特征空间,把它映射到人类比较容易理解的二维空间,从中发现了许多有意思的现象。比如,crocodile鳄鱼 和 alligator短吻鳄 离得很近,苹果跟梨聚在一起,这个可能容易理解。有趣的是,词汇之间的关系,还能从向量加减操作中反映出来,比如皇帝(King)的向量减去男人(man)的向量,再加上女人(woman)的向量,就变成了女皇(Queen)的向量。
另外,他还试图在GPT-2的语言特征空间中,寻找每次生成一个句子的游走规律,我们能从上面这个图片中,看到GPT-2是怎么在768维度的空间中游走并陆续做出下一个词的选择,但是很遗憾他还没有找到其中的规律。虽然从高维映射到二维中丢失了很多信息,但是未来如果能结合多维空间中的向量,我们可能会发现更多关于语言的规律。
▍Transformer神经网络算法架构及注意力机制
2017年6月,Google发表了非常著名的Transformer论文,论文标题是《Attention is all you need》,意思是说你只需要注意力机制就足够了。
图片来源: 知乎@雅正冲蛋
Transformer神经网络算法架构的框图如上,如前文所述,左边部分是编码器,右边部分是解码器。Google研发的BERT用的是编码器,而OpenAI的GPT系列用的是解码器。
在AI领域,有四大类神经网络算法,包括MLP、CNN、RNN、Transformer。MLP是多层感知器,CNN是卷积神经网络,RNN是循环神经网络。
Transformer是最新的算法模型。在一些场景中,它正在逐渐替代CNN和RNN。Transformer的特征提取能力比较强,擅长长序列处理、并行计算、多模态处理等。Transformer的注意力机制有点像人一样,选择性关注,因为资源有限,只会关注最重要的事情。
Transformer已经被广泛应用在自然语言处理、计算机视觉以及生物科技等领域。生物科技行业用来预测蛋白质三维形状的Alpha Folder算法就是基于Transformer算法模型来做的。
▍哪个模块是GPT-3储存智能的地方?
GPT-3模型发布时,OpenAI团队发布了论文《Language Models are Few-Shot Learners (语言模型是少样本学习者)》。
上图是GPT-3模型的框图,它基本上跟Transformer 的右边部分的解码器是类似的。无论是预训练还是推理(做任务),都是从框图的最底部输入前面部分的文本(GPT-3模型最大的长度是2048个token),然后经过12次运算,从Text prediction输出下一个词概率预测(Task Classifier是微调训练分支,在此不详述)。
一个有意思的话题是,GPT-3用1750亿个参数,去学习接近5000亿单词的文本,显然它不是简单地把3个单词存在1个参数中去,而是大抵掌握了一些语言规律且抽象了某些知识和能力。那么,问题来了,这些规律、知识和能力到底存在哪些地方呢?
有学者认为,1750亿参数主要集中在框图中的注意力处理层和前馈网络层,前者的值是动态计算的(每输入2048个token,就重新计算一次),它们是数据相关的动态权重,因为它们会根据数据动态变化。而前馈网络层的权重是随着训练过程而缓慢变化的,因此,有学者猜想在前馈网络层中存储着GPT发现的语言规律、知识和能力等,因为要经过12次运算,运算次数越靠后存储的信息越抽象。
Stephen wolfram把GPT-2的某个前馈网络层存储的768*768维度的权重参数矩阵提取出来,压缩到64x64尺寸,就形成了如下一张神秘的图像,代表着GPT-2总结的神秘的人类语言编码规律及其他一些知识和能力的一部分。很好奇什么时候科学家可以逐步解密其中的部分内容,相信对于人类提升自我能力有好处。
图片来源:writings.stephenwolfram.com
和AI相比,自我意识和自由意志可以算作是人类最后的堡垒。
但是有一种观点认为,人类其实没有所谓的自由意志。人类有两个自我,一种是体验自我,另一种是陈述自我。体验自我,负责相对“机械”地解读信息、作出决策;陈述自我,则负责对体验自我的决策进行解释和表述,有时甚至会虚构故事来“欺骗”我们自己。所谓的自由意志,不过是陈述型自我给自己编的一个故事而已。
一些科学家和学者认为,理论上,我们可以构造出一个自我模拟的自指机器(Self-referential Machine),让它也具备两套体系,一个负责执行算法,另一个则专门负责对自我进行模拟(描述,或者可称为在内嵌虚拟世界中模拟自我)。这种机器会表现得就“像”一个具有自我意识的系统,以至于我们可以用这样的系统来定义所谓的“自我意识”。在古代欧洲,有一种传说中的衔尾蛇,能够自己吃自己,实现持续进化。后来,有人提出哥德尔机( Gödel Machine)的设想,认为只要程序能够模拟自身、改造自身,那么我们就可以将其称为具有自我意识的。此外,还有Quine程序结构、克莱因Kleene第二递归定理等也提出和支持了与之相似的假设。
图片来源:维基百科
我们很难预料,未来机器是否能进化出自我意识。
需要指出,当前讨论的生成式AI,跟之前的分析式AI是有较大不同的。分析式AI的主要能力是分析,例如:数据分析、趋势预测、商品推荐、图像识别等,而生成式AI主要的能力是创造,例如:写诗、绘画、设计产品、编写代码等。
当前除语言模型外,生成式AI领域的其他进展还包括图像生成模型等等。未来,多模态(文本、图、视频等)对齐、融合、理解和生成等方向的进展,意义也非常重大。
关于图像生成模型,不得不提的是扩散模型(Diffusion Model)。它主要解决通过文本生成图像及其他媒体格式的难题,业内知名的扩散模型包括:DALIE2、Stable Diffusion等。
图片来源:Denoising Diffusion Probabilistic Models
2022年,大语言模型爆发。据统计,2022年,平均每4天就有一个新的大语言模型问世。
生成式AI技术也在持续引发人们对一些知名的模型层平台和应用的访问,数据增长很快,投资火热。2019 年至2021年期间,流向生成式AI业务的资本增加了约130%,其中文本和写作增长630%、图像增长400%、数据增长 370% 、音频/视频增长350% 。
图片来源:A16Z
上图是投资公司A16Z总结的生成式AI的行业堆栈。底层深蓝色的部分是基础硬件和云平台,中间蓝色的部分是模型层,再往上浅蓝色的部分是应用层。
在应用层,有的创业公司自身只做应用,模型能力则是调用外部的;还有一类叫端到端的应用模式,它会自己做模型,但一般不做大模型,或者在其他大模型基础上微调出自己的模型。
在模型层,有开源模型和闭源模型。深蓝色部分的Model hubs是用于模型存储和训练的第三方平台。
当前应用层的增长比较快,主要是由AI赋能的新型应用案例所驱动,主要集中在图像生成、文案写作和代码编写,三个类别各自的年收入已超1亿美元。
关于生成式AI的创业,我有6点思考和建议:
第一,目前,与AI相关的科研、工程、产品和商业化,都在同时快速迭代,变数很大。这个过程中,会出现不同的技术分支和业务路径,如果选错了技术分支和业务路径,再掉头就很麻烦。这就需要创业团队既懂技术又懂业务,在创业初期努力做出正确选择。
第二,对创业公司而言,从应用层或者端到端的应用层切入,可能是相对能降低风险的做法。模型层有少量机会,但不一定适合大部分的创业者。第三,应用层在做商业模型设计的时候,要警惕模型层的边界。
以Jasper公司为例。2020年在GPT-3模型基础上,Jasper衍生出付费商业文本写作的商业模式。到了2022年底,ChatGPT向用户免费开放,给Jasper带来较大的压力。尽管OpenAI未必会以商业文本生成作为自己的主要商业模式,但它平等赋能了入场的其他竞争者。Jasper需要展现出有竞争力的技术积累与业务纵深,才能稳住脚跟。
第四,把AI技术应用到产业场景,可分为新模式和旧模式改造两类方式。新模式是指创造之前没有的全新的应用场景,旧模式改造则指在现有产业场景里用AI技术来改造部分环节,或者团队带着深度行业认知和新的AI技术在成熟的产业场景中创业。新模式和旧模式改造,都存在巨大的机会。
在峰瑞已投企业中,有好几家企业在垂直产业的场景中做业务创新。比如线上心理咨询平台阁楼、短视频及直播SAAS服务企业特看科技、线上健身私教平台BodyPark,都在积极使用生成式AI来赋能自己的业务。本周六(3月11日),我们将邀请这3家公司的创始人来分享他们的探索和发现,欢迎参与。
第五,AI还面临科研知识快速溢出的问题,因此找到自己的壁垒很重要。创业公司一定要想清楚自己未来的壁垒在哪里,比如到底是数据壁垒、工程壁垒(例如模型微调)、场景壁垒,还是规模壁垒等等。在应用层创业,仅依靠外部模型层提供的能力,是无法形成壁垒的。
第六,应用层的创业,应该是“技术为先、场景为重”。
“技术为先”,是指虽然通用AI技术未必是你的核心壁垒,但团队一定要懂技术,才有能力思考如何更早更好地把技术应用到合适的应用场景里,做出好用的产品。
“场景为重”,意味着最后的产品和业务需要找到合适的落地场景,建立自己的商业模式,并在场景里形成自己的核心竞争力。
最后来聊聊对AI行业格局的未来展望和猜想。这个部分我参考了奇绩创坛陆奇博士之前的一个思考框架。
▍以AI和大模型为中心的新IT
新的硅基硬件产业:硅基产业架构和集合可能迎来新的发展机遇(例如:新的计算芯片及周边技术和产业等)。
新的软件和云服务体系:算力、模型和数据的云服务、基础软件、ML&Dev Ops、人机互助编程工具等。
▍新的基础智能终端设备:智能传感器、新型手机等
未来的智能终端会越来越智能,最近苹果公司官宣支持Stable Diffusion图像生成模型在iPad等终端上运行,也有工程师把经过裁剪的Stable Diffusion应用在iPhone上运行起来,可以预见以后我们的手机美颜和照片生成可以达到何等出神入化的境界。
此外,当前的翻译软件技术,在语义理解方面还是比较浅,翻译质量差强人意。如果可以把类似ChatGPT这样的语言模型能力嵌入到智能终端中去,随着文本和语音的实时翻译成为可能,跨语言交流将变得很方便,这对于提升人类之间的交流效率意义重大。
▍围绕内容创作展开的产业
文、图、视频、3D等各种媒体格式的AI内容创作工具,是当前可以看到创业机会较多的新产业。
以ChatGPT为代表的语言模型的文本生成技术,和以扩散模型为代表的图像视频多模态生成技术,可能会对内容产业产生深远的影响。从PGC到UGC,再到如今的AIGC,内容领域会有更多新变化与新玩法。
从媒体行业发展情况来看,当前头部的内容媒体平台比如抖音快手B站是所谓的Web2.0平台,普遍采用UGC方式为主来生产内容,但是随着AI生产内容(AIGC)的出现,AI可以生成大量优秀内容,成本较低、效果精良,而且甚至不乏创意,这个情况下内容媒体平台和行业就有可能出现较大的变化。
▍围绕语言模型展开的产业
在这个领域,新的机会可能包括:语言学习范式改变,重塑跨语言沟通方式,更友好的人机界面等。
其中特别值得一提的,是语言学习范式的改变。如前文所述,如果我们可以打开语言模型,从中寻找到语言学习的规律,说不定可以帮助我们更有效率地学习语言。事实上,OpenAI投资了一家韩国的英语学习APP叫Speak。从有限的公开信息来看,这家公司未来的产品是一个语言学习助手,或者叫做虚拟语言老师——借助语言模型的能力和发现的语言规律,去帮助人们更好地学习外语,而且成本极低。
跨语言沟通的技术目前还不成熟。如前面所说,如果我们能够把语言模型加载到智能终端,可能会极大改进跨语言沟通的能力。
因为语言模型足够强大,未来我们的人机界面,会采用更友好的自然语言人机界面,无论是跟APP对话还是跟智能硬件对话。
▍围绕思维模型展开的产业
不妨畅想一下,更聪明的软件(或机器人)、科研服务、 “知识工程”、“世界大脑”等。
当前的软件产业,即便有AI的加持,通用性和智能程度还是不尽如人意的,大多数情况下只能做一些特定的任务,只能成为人类的效率助手;随着更加通用的AI能力出现,软件也可以像人类一样思考和做事,可以想象软件就可以帮助人类承接较为完整的任务了。
如果AI可以发展出接近人类的思维能力,它也许可以成为人类科学家的科研助手,因为AI可以不知疲倦,且可广泛使用。当前,我们很难想象AI可以达到人类顶尖科学家的水平。打个比方,你让它去证明下哥德巴赫猜想,应该还是很不现实的。当然也有其他可能,如前文所述,如果AI程序可以实现自我优化,具备迭代自己的算法和技术的能力,相信它的智能会很快赶上来。
如果我们展开想象,就可以有更多的可能性。例如“知识工程”,如果把人类的知识建模,然后让人类以某种方式可以调用或者学习,那么就不用经过“痛苦”的学习过程。“世界大脑”,是指规模极大的思维模型,它可以帮助我们执行各种重要的计算和思考。不过,如果真的发展到这个地步,可能离电影《黑客帝国》里边的Matrix就不远了。
▍赋能人类,深入改变各行各业(特别是知识工作者)
语言是人类最主要的沟通方式,是知识和思维的主要载体;而深度思维是人类的高阶能力,也是人类不同于其他物种的最重要的能力。如果AI掌握了这两种能力,就基本具备了在某种程度上赋能或替代一部分人类知识工作者的可能。
类似于自动化生产制造设备赋能传统工业,各类AI模型和应用软件也将有机会更好地赋能各行各业。但是不同于制造行业,大批量使用的软件,其边际使用成本是非常低的,而且它很聪明、善学习、会思考、会交流,应该会有大量的应用场景有待开发。这里边有非常多的创业机会,也会给各行各业带来新的发展动力。
首先,ChatGPT是语言模型领域的重大进展,鉴于语言对人类沟通和思维的重大意义,语言模型本身具备很强的通用性,以及人类可以通过研究语言模型获取语言及知识的学习规律并得到效率提升,这些都会持续带来长期的创新机会。
第二,AI在思维机器这个方向上还有更远的路可以走。例如,如果AI能够实现良好的多模态信息输入,增加对物理世界的理解,可能可以“涌现”出更多的智能。这个方向的任何进步都意义重大。
第三,与AIGC相关的底层技术原理和算法都还处在发展早期,未来还有很长的迭代和优化机会。
一切,才刚刚开始。
来源:金色财经