全球数字财富领导者
CoNET
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
香港论坛
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
AIGC带动影响板块走强,华策影视、奥飞娱乐涨超7%,影视ETF(516620)涨超3%
go
lg
...
源证券认为,AIGC从文字、图片生成到
视频生成
的技术进步路线,长期来看或大大助力影视拍摄制作降本增效,拥有版权、视频素材及数据优势的影视公司或助力AI大模型训练,并衍生新的商业模式。建议密切关注直播带货及AIGC对影视公司新商业模式及降本增效的作用,及带来的影视板块价值重估机会。 (来源:界面AI) 声明:本条内容由界面AI生成并授权使用,内容仅供参考,不构成投资建议。AI技术战略支持为有连云。
lg
...
有连云
2023-03-17
李彦宏:百度文心一言"十月怀胎"终于"一朝分娩" 文心一言大模型将带来三大产业机会
go
lg
...
源、媒体等)、应用开发(文字、图像、音
视频生成
、数字人、3D生成等)。 百度CEO李彦宏称“文心一言”是百度公司10年心血的产物,没有哪家公司能在几个月内生产出这样的产品。
lg
...
金融界
2023-03-16
李彦宏展示文心一言五个使用场景:无论哪家公司都不可能靠突击几个月做出这样的大语言模型
go
lg
...
至能够生成四川话等方言语音;文心一言的
视频生成
能力则因成本较高,现阶段还未对所有用户开放,未来会逐步接入。 “多模态是生成式AI一个明确的发展趋势。”李彦宏表示,“未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。” 据了解,目前百度是全球大厂中第一个做出对标ChatGPT产品的企业。李彦宏指出:“无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理,需要多年的坚持和积累,没法速成。”
lg
...
金融界
2023-03-16
OpenAI推出GPT-4!可以解析文本和图像输入 券商:商业化应用将进一步加速,背后有四大投资新路径
go
lg
...
码生成、对话交互、机器翻译、图像生成、
视频生成
等。我们认为,前述基础能力将支撑GPT系列模型在通用与垂直领域的应用,典型应用场景如:通用领域—搜索引擎/办公软件,垂直领域—教育/金融/医疗/图像视频等。 3、通用与垂直场景多点开花,GPT变革内容生成与交互方式 GPT有望革新各行各业的内容生成与交互方式。基于GPT+文本&代码&对话&翻译&图像&视频,我们看好GPT类技术未来在通用与垂直场景的应用空间。例如,搜索引擎结合GPT将重塑搜索结果呈现方式,多模态的引入带来一站式的文本、图像、视频汇集结果,将大为提升用户信息收集效率。 中金公司机构以下四大环节有望迎来新机遇: (1)算力方面,ChatGPT训练所耗费的算力大约为3640 PF-days,即假设每秒运算一千万亿次,需要连续运行3640天,训练大模型需要强大的算力。人工智能的跨越式发展将成为算力流量消耗的重要驱动力,未来数据中心和相关的配套产业有望实现更好增长。其中,数据中心建设有四大重点方向: ①第三方IDC运营环节:宝信软件、数据港(与阿里合作)、科华恒盛(与腾讯合作)、奥飞数据、美利云、光环新网、铜牛信息等。 ②储能温控环节:英维克(互联网IDC空调龙头)、佳力图(绑定中国移动)、高澜股份、依米康、申菱环境、朗进科技、科华数据、润泽科技等。 ③传输网设备、光纤光缆、光模块等ICT环节:光模块领域的新易盛、中际旭创、博创科技;光器件领域的天孚通信、腾景科技、光库科技;光纤光缆领域的中天科技、亨通光电等。 ④高性能计算芯片板块:澜起科技、国芯科技、聚辰股份、兆易创新、景嘉微、寒武纪、芯原股份等。 (2)数据标注方面,ChatGPT的训练过程加大了人工标注的力度和精度,这代表着在未来的人工智能领域,优质的数据源和强大的标注能力,将成为行业的基础设施。 (3)NLP(自然语言处理)方面,安信证券表示,由于ChatGPT主要基于自然语言处理,因此在NLP领域沉淀较多的企业,有望率先实现功能的部分复现,NLP头部厂商将率先受益。 (4)AIGC(人工智能生成内容)方面,ChatGPT是AIGC应用的又一个起点,随着深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,AIGC有望加速发展。
lg
...
金融界
2023-03-15
ChatGPT正在迎接一个繁荣的开发者市场
go
lg
...
hrome浏览器插件,给YouTube
视频生成
带有时间戳的摘要,适合对话/访谈/演讲类的视频,基于文本识别和热度判断来帮你划重点,免费版每周只5个额度,超出需要付费。 平替版的还有Glarity(glarity.app),不仅支持YouTube,还支持Google和Yahoo,但总结得会更简略一些。 面向Bilibili的同类服务有BilibiliSummary(GitHub)BibiGPT(b.jimmylv.cn),只是稳定性都不太好。 Mem(mem.ai) OpenAI领投的知识库工具,比Notion要轻,把它当成一个每日信息摄入的保存盒子,扔进来之后由AI咀嚼整理,生成新的简报给我。 Notion AI当然更强大一些,但是Notion更适合再往后一步的沉淀,在收进Notion之前我需要中转站来做进一步的精简处理。 HARPA(harpa.ai) Chrome浏览器插件,除了随时调用ChatGPT来对当前页面进行总结之外,还整合进去了很多自动化功能,比如你可以让它跟踪一家网店的商品价格,降价到了你设置的数字之后之后第一时间通知你。 因为功能种类很多,所以用起来可能会繁琐一些,前期需要不断的调教,或者干脆放弃多余的选项,只用它的页面感知能力,超乎想像的全能。 AI Dungeon(play.aidungeon.io) MUD地牢游戏,可以无限生成龙与地下城式的游戏内容,很适合消遣和猎奇,用的好像是GPT-3模型,对中文的支持度非常高,对话起来你说中文它出英文完全没有任何障碍。 这完全脱离了RPG游戏的任务线,你可以天马行空的推进剧情,最后通关或者失败,好的剧本会被分享出来让其他用户进去重开游戏,然后又产生新的支线。 我玩了一个多星期了,感觉略微看到了游戏产业在未来的一种可能性。 结语 从外网的情况来看,现在每天都有几十个基于OpenAI的新产品上线,互联网行业很久没有出现如此让人兴奋的画面了。 这里面有些是套壳应用,就是针对一个具体需求写了前端,比如用户输入需求然后它给你推荐3本书这种,只是对ChatGPT能力做了简单的连接,价值有限。 稍微复杂一点的,我看到有专门服务于特定场景,比如很多人用Tinder搭讪妹子不知道怎么聊天,然后它可以提供500多种开场白,一步一步帮你跟妹子聊天。 最受欢迎的市场在企业端,因为付费意愿最高,所以大量的产品都是文案生成、话术优化、客服对接这些,也有游戏开发者分享了一套完整流程,从用ChatGPT提出要求,到Midjourney绘制素材,最后存入Figma,丝滑得不可思议。 更多让人觉得牛逼的想法都还在测试,比如想用LLM模型来给金融市场做定向量化分析的,让零基础的用户直接就能下指令编写程序的,给AI喂完古往今来所有学术论文然后让它成为大学专用搜索引擎的,每一个都对未来影响深远。 最可怕的是,OpenAI和它的ChatGPT,也只是这波AIGC浪潮里的浪花之一而已,而AIGC又只是整个AI生态里的一条支流,总感觉在我们的有生之年,还有机会经历一场从工业到生活的彻底改变。 这是特斯拉才刚刚做出交流电系统的前夜。 来源:金色财经
lg
...
金色财经
2023-03-09
影视院线板块上行,上海电影领涨,影视ETF(516620)上涨1.43%
go
lg
...
模型参数和数据训练量的提升,AIGC在
视频生成
方面或迎来突破,长期来看有望大幅提升影视内容供给量及创作效率。 (来源:界面AI) 声明:本条内容由界面AI生成并授权使用,内容仅供参考,不构成投资建议。AI技术战略支持为有连云。
lg
...
有连云
2023-03-08
万字圆桌实录:ChatGPT背后的AIGC 将生成怎样的浪潮?
go
lg
...
;AIGC+娱乐,主要是趣味性图像、音
视频生成
等。那么同时目前的话也是有这种开发这种C端应用的这种数字化身来布局相关元宇宙的相关的应用案例,这块可能大家还是见得比较多的。此外,AIGC在医疗、工业领域也有一些实践,但可能还仅仅是用在虚拟交互方面,对于深入行业、覆盖行业业务逻辑方面,还在探索中。 史树明:从整体技术进展来看,AIGC确实进展非常大。5年前,AIGC领域也只有文本生成语音(TTS)被认为是可用的。3年前,如果说AI根据文本来生成图片,生成的图片质量过关、相关度也比较高,人们是难以想象的。但是现在这些都已经变成现实了。此外,以前文本生成大多是基于模板,这种模式的通用性就非常差,只适用于非常狭窄的领域。现在随着大模型的出现,以及语言模型本身也在进步,所以AIGC让人印象深刻。不管是Stable Diffusion,还是ChatGPT,让人很惊叹于它们强大的文本理解和内容生成能力。 当然中国在AIGC发展中确实是还需要再努力。绝大多数工作都是美国的少数研究机构完成的,它们引领了整个AI技术的发展。所以我们也要努力,也要争取在AI发展史上能够有更多的贡献。 商业化应用方面,目前主要能看到的一个显著方向是辅助人来,如AI辅助创作,AIGC充当辅助的角色。AIGC如果自己独立生成很多图片不一定有意义。但当人有需要的时候,AIGC可以根据一些Prompt,也就是输入一些提示词及其组合,经过不停的测试、交互之后,最终能够产生精美的图片,并应用在具体的工作或者生活中。AIGC确实能够辅助大多数很不擅长画图的人去创作。文本生成也是一样,比如在AIGC的辅助之下,我们进行文本续写、文本改写的效率会更高,它也能够启发我们的思路。因此客观上AIGC提升了我们这种劳动生产效率,工作效率。从商业化应用来看,最直接的就是AI辅助创作,其他方面还需要进一步挖掘。当然,有人问ChatGPT是不是能够取代搜索引擎,但是现在看来可能性还不大,它只是可能完成搜索引擎中的一部分功能,但还不能取代。 总结一下,第一,技术进展非常快,超出预期;第二,商业化有很多的想象空间,但是目前我们似乎还没有挖掘到最关键的东西。 杨健(主持人):虽然AIGC还在探索阶段,但是我觉得已经很让人心驰神往了。以前学设计、美术的都是要从素描开始学起,现在这些技法随着AI技术辅助好像变得越来越没有用武之地了,所以可能更需要人在创意方面的一些突破,这也是涉及到技术里面的术和道的关系问题。 AIGC价值引领 杨健(主持人):我们回归到价值层面上来看,AIGC为什么会这么重要?它到底有什么样的价值和意义?它能够在哪些领域引发变革,除了物质层面,从精神层面价值层面能够带来一些什么样的更多的冲击和变化? 段伟文:我主要从4个方面来谈: 第一,AIGC带来一种全新的内容创作,但是其实它还应该是一种全新的认知方式。现在让AIGC生成内容时,个人的Idea变得更重要了。 第二,AIGC是一种全新的学习和研究工具,因为它赋予了每个个体更高层次的创作能力。比方说最近有争议的是,很多本科生的论文已经可以用AIGC写出来了,大家认为这个是作弊。其实我们仔细去看现在大多数的本科生论文,它确实也就是这抄一段那儿抄一段,只不过他会抄的比较好,他归纳的比较合理。但实际上如果运用AIGC这样一个技术,它就能够让你比较轻松的完成文献搜集和处理的工作,提升学习效率。在研究工作中,AIGC的应用或许能够常规化的,成为人机认知的协同过程中的有利工具。 第三,会涉及到元宇宙,也就是可能世界的创造。AI绘画实际上是把各种可能性都结合在一块,类似于克里普克的可能世界理论。那么在以往的时候,个人大脑调用这些可能的数据资源的能力是非常有限的。而有了AIGC以后,它就可以完全是按照你的想象来进行组合,成为一种可能世界的制造机器。所以这样来看,元宇宙的视野就更开阔了,而是我们完全可以把人类所有的精神财富、思想创造,还有文化遗产等,经过组合方式,再加上人的灵感选择去进行创造。 第四,AIGC有一些有意思的应用,一个是可以用来防止孤独症。现在有很多人社交恐惧,所以他可以搞一个自己的数字人,然后自己跟自己聊天。还有一个艺术家用她小时候的日记去训练AI,最后实现了与小时候的自己对话,她就能够了解她在青少年时期担心忧虑什么,达到心理治疗的作用。因此,我觉得AIGC还有在精神的自我认知、自我疗愈发挥作用,甚至最后AIGC它会成为我们的好伴侣、好陪伴,能够让我们通过AI来自助来获得新生,来产生更大的精神力量。 殷俊:我认为AIGC对于整个包括元宇宙的虚拟内容生产来说,它可以把内容生产的门槛给降得很低。比如AI生成的太空歌剧院主题的画作拿了第一名。人们拥有AIGC之后看到一个新的可能性,是不是以后就变成了大众创作,只需要有一个好的Idea就可以去创作了。比如用ChatGPT把一整套剧本按照我的思路演绎出来。回到元宇宙这个话题,以往生产工具跟生产方式可能不能满足元宇宙的海量内容的生产需求。但是现在AIGC让大家觉得它可能是下一代生产工具。 杨健(主持人):刚才段老师、殷老师更多的是从人类怎样去来提升自己、突破自己,利用新技术来实现这个目标的过程。但是不免的可能也会有另外的一面,它有可能对我们既有的生存方式、生活方式、以及生产方式有比较大的冲击,我们怎么样来消化这些可能的变化和冲突呢? 王蕴韬:我们接触产业界比较多一些,我第一次看到AIGC的时候,脑海中想到的第一个词是“超算”。AIGC很有可能会对我们目前已有的计算体系,包括计算系统,会提出新的挑战。其实我们真正在用一套计算系统,去把异构的AI系统做一个很好地并行部署时,会发现有很多的计算装置、数据储备、软硬件协同的不足之处。对于这些不足之处,可能都是需要我们去迎接的这么一个挑战。 另外从应用来看,AIGC对传统行业的最大挑战,是内容科技的挑战。其实就是整个内容的创造已经从平台的中心化创造,越来越走向分散式的用户创造,那么AI技术在这个过程中也是越来越起到了一种颠覆性的作用。无论是内容生成,还是内容传播、内容审核?AI的颠覆性作用是越来越强。 这里其实一个最核心的就是元宇宙,它一定是充满了各种内容的试验场。元宇宙与传统游戏不同的是,元宇宙似乎没有一个大家需要实现或完成的目标,这就意味着元宇宙来说这个游戏一定要不停的持续下去。那么如何才能在元宇宙场景下打造一个无限持续的游戏规则呢?AIGC就会有一个非常重要的作用,辅助人类在未来元宇宙的内容体系设计时,实现无限的滚动下去。 建立可信AIGC 杨健(主持人):AIGC现在有哪些潜在挑战?这些挑战分为两个层面,一个是技术和产业层面的难点有哪些,另一个是它可能会带来哪些法律和伦理和社会方面的问题,我们应该怎么样去应对? 吴保元:首先,最近ChatGPT很火热,但是人们也发现它会带来很多的负面问题。最典型的就是它产生虚假信息、错误信息,它会产生一堆看似正确但又是错的内容。但是如果对这些挑战过于关注,就会对技术的发展多多少少产生限制。比如学术界在研究Deepfake的时候,做生成攻击的需要做伦理影响和技术潜在风险的声明,而做防御检测则不需要,导致大家更倾向于做防御检测方面的研究。但是攻击技术往往会启发防御技术。其次,在数字经济中,AIGC可以作为数据产生的工具,可以保护隐私、大幅度降低数据采集的成本、创造新的数据。总结来看,AIGC带来的社会问题以及它本身面临挑战,还有它需要更多的应用场景去驱动其正面发展。 段伟文:AIGC的法律、伦理和社会问题在很多讨论里面已经有了,比如在艺术创作里,已经有艺术家提出来版权问题。过去在搜索引擎、平台经济时期,我们实际上是在把世界变成数据,即世界数据化,相应的隐私、伦理法律问题也在不断深化和治理中。那么,进入到AIGC技术阶段后,就是在世界数据化的基础上进行生成,也就是二阶的世界数据化时代。那么,它的法律和伦理问题,应该是跟以前存在不一样的地方,因此我们需要有一些新的社会契约和共识,也就是哪些行为我们是可以接受的,哪些行为是不可以接受的。 AIGC生成内容如果从知识生产的一般意义上来讲,它生成的内容是在世界数据化之上,生产的新内容。这就好比欧几里得发明了欧式几何,欧式几何是原来世界上没有的,世界上原来只有测量,它是在测量基础上发展而来。那么现在AIGC也是这样的,它是一种新的认知或知识生产的新形态。所以在这种新形态下,我觉得在法律伦理治理方面,要给予AIGC一个创新的保护空间。为什么要讲创新的保护空间,它不仅仅是保护你的经济利益,而是只有技术为社会所接受,而且技术从一开始就重视伦理法律问题,才能够行稳致远。所以监管者、管理者和法律伦理的学者,以及产业界应该是协同的,一起来构建一个可预期的治理模式,通过法律和伦理上的探索,能够让AIGC有更好的发展。举个例子,现在经常说数据毒性,它其实就是现实生活中的毒性。这有两面,第一面是通过AIGC能够暴露出来数据毒性,社会中的一些偏见歧视等,反过来可以净化我们的社会生活。但是这种净化不可能是绝对的净化,因为绝对净化其实又违背了我们现代人生活的一些最基本的初衷。因为关于什么东西是干净的或不干净的,没有一个绝对的标准。最后还是有一个大家要共同接受的过程。所以在这种情况下,我们要认识到事物的复杂性,只有认识到这样一个复杂性,才能够开拓前进。在开拓过程中,我们就能够知道哪些东西是可以接受的,哪些东西是现在还不能接受的。 在我看来,法律、伦理和社会问题要纳入到AIGC带来新的认知范式背景下,新的认知方式对整个社会的法律伦理等方面的动态冲击,以及我们如何动态的应对。 杨健(主持人):很多时候技术问题确实是一个度的把握问题。AIGC作为新技术,要在法律伦理上给予一定的约束,但是又不能抑制它的发展。那么,未来怎么样能够安全、可信、负责任地发展应用AIGC就变得非常的重要,我们在这些方面应该具备什么条件才能够把它做好? 姚新:我觉得从内容生成来说,安全、可信和负责任发展的确稍微落后了一点。第一个问题是,现在大部分数据来源于互联网,互联网中有不小比例的数据是错误或者是不准确的,但这些数据用于训练AI大模型,然后用AI大模型生成新的数据,最后这些生成的数据也会被新一代的AI大模型用来训练。所以可以想象,就像做计算的时候误差会叠加,有一些错误在大模型中会被固化,一旦固化了以后就比较难解决。 第二个问题是,AIGC如果真正有一些工业应用,或者应用跟人相关的比较密切,安全性和可信性问题应该在哪一个阶段考虑?不可能是在AI生成以后,再去找办法来判断它是否安全、可行。肯定是在整个模型的建立和训练过程中都要考虑。 第三个问题是,比如有一些学生写毕业论文也是这里抄一下,那边抄一点,没准他最后写的还不如ChatGPT,那么为啥不让他用这个工具?这里有一个比较深层次的问题。教育应该教学生什么?应该怎么教学生?这是挺重要的问题。因为依赖某一个AI大模型去生成知识,会不会损失产生知识的多样性,假如失去了产生知识的多样性,会对我这个社会有什么影响?这都是AIGC发展之初应该考虑的,否则就有可能走推荐系统老路,好像咱们的世界视野被一个个推荐系统封闭了,将来会不会被一个大模型给封闭住。 杨健(主持人):谢谢姚老师。姚老师提的三个问题都是非常重要的。首先是数据源头污染的问题,这个问题进入到整个内容基因里是非常可怕的;第二是对技术的干预到底是在什么样的阶段,要以一个什么样的度来把握;第三是AI大模型会不会从人类助手变成人类的一个桎梏,成为约束人类的牢笼。 吴保元:我从自身研究的可信AI领域来探讨一下。可信AI的定义已经很明确了,鲁棒性、公平性、隐私和可解释性等。然而这些仅限于此前判别式、决策式AI,AIGC的相关研究还比较少。第一,如同姚老师所言,AIGC的安全问题更可能是在源头上制造的,危害可能更大。所以针对AIGC的可信问题,除了以前的老问题,还应该关注新的挑战,比如版权问题、责任追溯问题等。因此,需要先把它的问题定义清楚,后面技术解决方案可以进一步探讨。 第二,AIGC有个特点是它的危害性好像不那么直接,即AIGC的衍生问题,作为技术人员而言,他可能想不到那么清楚,所以AIGC治理需要更多的交叉学科更早的参与进来,共同把问题定义清楚,从源头上去管控它,这样有助于AIGC健康发展。 AIGC 未来可期 杨健(主持人):对AIGC和人工智能领域的未来发展有何期待和展望?它对人类社会的未来影响可能会是怎样的? 殷俊:整个AIGC,以及未来人工智能技术,一定会给我们现有的生产工具跟生产力带来一个根本性变革。这些变革一定会引起生产关系的变化,这可能会对人类未来以及社会产生比较大的影响。 王蕴韬:AIGC可能对于未来数字原生世界而言是一个重大的机遇,同时也是一个全新挑战。相对于物理世界的数字化转型来说,未来数字原生世界很有可能就是元宇宙世界,人类可以凭空创造出很多新应用、新业态、新商业模式,而AIGC是不可缺少的一环。 那么它也存在着很多挑战,包括对传统经济理论的挑战,也就是AIGC可能改变未来人类生产生活的成本结构,未来智慧能力的成本会下降很多,也就是对智慧使用的边际收益会增长很多,因此人类会面临一个更加复杂、更加多元的新世界。 姚新:第一,应该拥抱AIGC技术,这是毫无疑问的。第二,在拥抱AIGC的过程中一定要明确它潜在的挑战,当然也不是一定要解决这些挑战才可以推广AIGC应用。 史树明:第一,我相信AIGC和整个人工智能技术还会持续高速发展;第二,我很期待这种发展会有利于提升整个人类的生活品质,让我们的生活更加舒适便捷。 段伟文:AIGC主要是带来了一种内容生产自动化,那么这种自动化实际上会彻底改变人和机器的认知协同过程。它真正的挑战是,AIGC作为一个内容生产或者知识生产的引擎,我们有没有在内容本身上做好准备,包括法律和伦理规则等。 吴保元:AIGC对于人工智能而言,应该是又一波热潮。这里也有一个潜在影响,就是目前人工智能教学和教材需要大幅度的更新修改。以往我们的教学重点是在判别式网络,但现在可能需要增加生成式AI方面的内容。 杨健(主持人):感谢各位嘉宾的精彩分享!可以说我们正是在经历着这么一场AIGC引领的生成大浪潮,它不只是科技行业的进展,也是整个社会都要面对的一个趋势,我们要用更加开放的心态去认知它,用乐观而且谨慎的态度去接受它,可能这样才能够看清,并且受益于这个浪潮。 来源:金色财经
lg
...
金色财经
2023-02-24
OpenAI与AIGC:改变人类生产范式 通往“万物的摩尔定律”
go
lg
...
为设计灵感和素材的来源。同时 3D 和
视频生成
领域的大模型也在飞速突破的过程中,未来很可能会在游戏原画、影视特效、文物修复等领域发挥作用。 从神经网络的角度看,当前的大模型 GPT-3 有 1750 亿参数,人类大脑有约 100 万亿神经元,约 100 个神经元会组成一个皮质柱,类似于一个小的黑盒神经网络模块,数量级上的差异决定了算力进步可以发展的空间还很大。与此同时,今天训练 1750 亿参数的 GPT-3 的成本大概在 450 万美元左右,根据成本每年降低约 60% 的水平,供大模型提升计算复杂度的空间还很多。 OpenAI CEO、YC 前主席 Sam Altman 的图景中,AI 大模型发展的最终目标是 AGI(通用人工智能,Artificial General Intelligence),当这一目标实现的时候,人类经济社会将实现”万物的摩尔定律“,即万物的智能成本无限降低,人类的生产力与创造力得到解放。 归纳并演绎生成式 AI 是什么 AI 模型大致可以分为两类:决策式 AI 与生成式 AI。 根据机器学习教科书,决策式模型 (Discriminant Model)学习数据中的条件概率分布;生成式模型 (Generative Model)学习数据中的联合概率分布,两者的区别在于擅长解决问题的方式不同: 决策式 AI 擅长的是基于历史预估当下,有两大类主要的模型应用,一类是辅助决策,常用在推荐系统和风控系统中;第二类是决策智能体,常用于自动驾驶和机器人领域。 生成式 AI 擅长的是归纳后演绎创造,基于历史进行缝合式创作、模仿式创新——成为创作者飞船的大副。所谓 AIGC(AI Generated Content),便是使用生成式AI主导/辅助创作的艺术作品。 不过在10年代的机器学习教科书中,早已就有了这两类AI。为何 AIGC 在20年代初有了显著突破呢?答案是大模型的突破。 The Bitter Lesson大模型助 AIGC 进化 时间倒回到 19 年 3 月,强化学习之父 Richard Sutton 发布了名为 The Bitter Lesson(苦涩的教训)的博客,其中提到:”短期内要使AI能力有所进步,研究者应寻求在模型中利用人类先验知识;但之于AI的发展,唯一的关键点是对算力资源的充分利用。“ Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 该文章在当时被不少 AI 研究者视为对自己工作的否定,极力辩护。但如果拉长时间线回看,会发现这位泰斗所言不虚: 机器学习模型可以从参数量级上分为两类:统计学习模型,如 SVM(支持向量机)、决策树等数学理论完备,算力运用克制的模型;和深度学习模型,以多层神经网络的深度堆叠为结构,来达到高维度暴力逼近似然解的效果,理论上不优雅但能高效的运用算力进行并行计算。 神经网络模型在上世纪 90 年代出现,但在 2010 年前,统计学习模型仍是主流;后来得益于 GPU 算力的高速进步,基于神经网络的深度学习模型逐渐成为主流。 深度学习充分利用了 GPU 擅长并行计算的能力,基于庞大的数据集、复杂的参数结构一次次实现出惊人的效果,刷新预期。大模型便是深度学习模型参数量达到一定量级,只有大型科技公司才能部署的深度学习模型。 2019年,OpenAI 从非营利组织变为营利性公司,接受微软 10 亿美金注资。这一合作奠定了他们有更多算力资源,并能依仗微软的云基础建设随时将大模型(Foundation Model)发布为商用 api。 与此同时,还有第三件事值得关注,大模型 AI 的研究方向出现了转变,从智能决策式 AI 转变为内容生成式 AI:原本主要大模型集中于游戏的智能决策体,如 DeepMind 开发的打败围棋冠军的 AlphaGo、OpenAI 开发的打败 Dota 职业选手的 OpenAI Five。 Transformer 模型(后文将详细介绍)的发布让 OpenAI 嗅到了更适合他们的机会——预训练语言模型。在那之后,他们开始在 AIGC 的方向上开枝散叶:沿着 2018 年时低调发布的 GPT 模型轨迹发布了一系列模型族,一次次刷新文本生成大模型的效果,印证 Sutton 提出的宗旨:充分运用海量算力让模型自由的进行探索和学习。 OpenAI的大模型发展之路 2019年2月:GPT-2 初版发布,1.2 亿参数量 2019年3月:OpenAI LP 成立 2019年7月:微软注资 10 亿美金 2019年11月:GPT-2 最终版发布,15 亿参数量,宣布暂时不开放使用为避免假信息伪造 2020年6月:GPT-3 发布,1750 亿参数量,后续开放 OpenAI API 作为商用 2021年1月:DALL·E 与 CLIP 发布 2021年10月:OpenAI Codex 发布,为 GPT-3 为 coding 场景的特化模型、Github Copilot 的上游模型 2022年4月:DALL·E2 发布 1、GPT-3,AI文本生成巅峰之作 深度学习兴起于计算机视觉领域的应用,而大模型的发展开始于 NLP 领域。在数据、算力充分发展的过程中,Transformer 模型以 attention 机制高度并行化的结构充分利用算力,成为 NLP 领域预训练模型的标杆。 著名的独角兽 Hugging Face 也是从对该模型的复现和开源起家。除了 attention 机制的高效之外,它还有两个重要特点:迁移学习(transfer learning)和自监督学习(self-supervised learning)。 顾名思义,迁移学习指在一个极庞大的数据集上充分学习历史上的各类文本,把经验迁移到其他文本上。 算法工程师会将第一步训练完成的模型存储下来,称为预训练模型。需要执行具体任务时,基于预训练版本,进行定制化微调(fine-tune)、或展示少许范例(few-shot/zero-shot)。 而自监督学习,得从机器学习中的监督学习讲起。前面提到若需要学习一匹马是否在奔跑,需要有一个完整标注好的大数据集。 自监督学习不需要,当 AI 拿到一个语料库,可以通过遮住一句话中的某个单词、遮住某句话的下一句话的方式,来模拟一个标注数据集,帮模型理解每个词的上下文语境,找到长文本之间的关联。该方案大幅提高了对数据集的使用效率。 谷歌发布的 BERT 是 Transformer 时代的先驱,OpenAI 发布的 GPT-2 以相似的结构、更胜一筹的算力后来居上。直到2020年6月,OpenAI 发布了 GPT-3,成为该模型族,甚至整个文本生成领域的标杆。 GPT-3 的成功在于量变产生质变:参数比 GPT-2 多了两个数量级(1750亿vs 15亿个参数),它用的最大数据集在处理前容量达到 45TB。 如此巨大的模型量级,效果也是史无前例的。给 GPT-3 输入新闻标题”联合卫理公会同意这一历史性分裂“和副标题”反对同性恋婚姻的人将创建自己的教派“,生成了一则以假乱真的新闻,评估人员判断出其为AI生成的准确率仅为 12%。以下是这则新闻的节选: 据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了一次历史性的分裂:要么创立新教派,要么”保持神学和社会意义上的保守“。大部分参加五月教会年度会议的代表投票赞成进一步禁止 LGBTQ 神职人员的任命,并制定新的规则”规范“主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划:于2020 年组成一个新教派”基督教卫理公会“。 要达到上述效果,成本不容小觑:从公开数据看,训练一个 BERT 模型租用云算力要花约 1.2 万美元,训练 GPT-2 每小时要花费 256 美元,但 OpenAI 并未公布总计时间成本。考虑到 GPT-3 需要的算力是 BERT 的 2000 多倍,预估发布当时的训练成本肯定是千万美元级别,以至于研究者在论文第九页说:我们发现了一个 bug,但没钱再去重新训练模型,就先这么算了吧。 2、背后DALL·E 2,从文本到图片 GPT-3杀青后,OpenAI 把大模型的思路迁移到了图片多模态(multimodal)生成领域,从文本到图片主要有两步:多模态匹配:将 AI 对文本的理解迁移至对图片的理解;图片生成:生成出最符合要求的高质量图片。 对于多模态学习模块,OpenAI 在 2021 年推出了 CLIP 模型,该模型以人类的方式浏览图像并总结为文本内容,也可以转置为浏览文本并总结为图像内容(DALL·E 2中的使用方式)。 CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比较简单:在一个图像-文本对数据集上训练一个比对模型,对来自同一样本对的图像和文本产生高相似性得分,而对不匹配的文本和图像产生低相似性分(用当前图像和训练集中的其他对的文本构成不匹配的样本对)。 对于内容生成模块,前面探讨了文本领域:10 年代末 NLP 领域生成模型的发展,是 GPT-3 暴力出奇迹的温床。而计算机视觉 CV 领域 10 年代最重要的生成模型是 2014 年发布的生成对抗网络(GAN),红极一时的 DeepFake 便是基于这个模型。GAN的全称是 Generative Adversarial Networks——生成对抗网络,显然”对抗“是其核心精神。 注:受博弈论启发,GAN 在训练一个子模型A的同时,训练另一个子模型B来判断它的同僚A生成的是真实图像还是伪造图像,两者在一个极小极大的博弈中不断变强。 当A生成足以”骗“过B的图像时,模型认为它比较好地拟合出了真实图像的数据分布,进而用于生成逼真的图像。当然,GAN方法也存在一个问题,博弈均衡点的不稳定性加上深度学习的黑盒特性使其生成。 不过 OpenAI 大模型生成图片使用的已不是 GAN 了,而是扩散模型。2021年,生成扩散模型(Diffusion Model)在学界开始受到关注,成为图片生成领域新贵。 它在发表之初其实并没有收到太多的关注,主要有两点原因: 其一灵感来自于热力学领域,理解成本稍高; 其二计算成本更高,对于大多高校学术实验室的显卡配置而言,训练时间比 GAN 更长更难接受。 该模型借鉴了热力学中扩散过程的条件概率传递方式,通过主动增加图片中的噪音破坏训练数据,然后模型反复训练找出如何逆转这种噪音过程恢复原始图像,训练完成后。扩散模型就可以应用去噪方法从随机输入中合成新颖的”干净“数据。该方法的生成效果和图片分辨率上都有显著提升。 不过,算力正是大模型研发公司的强项,很快扩散模型就在大公司的调试下成为生成模型新标杆,当前最先进的两个文本生成图像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都基于扩散模型。DALL·E 2 生成的图像分辨率达到了 1024 × 1024 像素。例如下图”生成一幅莫奈风格的日出时坐在田野里的狐狸的图像“: 除了图像生成质量高,DALL·E 2 最引以为傲的是 inpainting 功能:基于文本引导进行图像编辑,在考虑阴影、反射和纹理的同时添加和删除元素,其随机性很适合为画师基于现有画作提供创作的灵感。比如下图中加入一只符合该油画风格的柯基: DALL·E 2 发布才五个月,尚没有 OpenAI 的商业化api开放,但有 Stable Diffusion、MidJourney 等下游公司进行了复现乃至商业化,将在后文应用部分介绍。 3、OpenAI的使命——开拓通往 AGI 之路 AIGC 大模型取得突破,OpenAI 只开放了api和模型思路供大家借鉴和使用,没去做下游使用场景的商业产品,是为什么呢?因为 OpenAI 的目标从来不是商业产品,而是通用人工智能 AGI。 OpenAI 的创始人 Sam Altman 是 YC 前总裁,投出过 Airbnb、Stripe、Reddit 等明星独角兽(另一位创始人 Elon Musk 在 18 年因为特斯拉与 OpenAI ”利益相关“离开)。 他在 21 年发布过一篇著名的博客《万物的摩尔定律》,其中提到 OpenAI,乃至整个 AI 行业的使命是通过实现 AGI 来降低所有人经济生活中的智能成本。这里所谓 AGI,指的是能完成平均水准人类各类任务的智能体。 因此,OpenAI 始终保持着学术型企业的姿态处于行业上游,成为学界与业界的桥梁。当学界涌现出最新的 state-of-art 模型,他们能抓住机会通过海量算力和数据集的堆叠扩大模型的规模,达到模型意义上的规模经济。 在此之后克制地开放商业化 api,一方面是为了打平能源成本,更主要是通过数据飞轮效应带来的模型进化收益:积累更富裕的数据优化迭代下一代大模型,在通往 AGI 的路上走得更坚实。 定位相似的另一家公司是 Deepmind——2010年成立,2014 年被谷歌收购。同样背靠科技巨头,也同样从强化学习智能决策领域起家,麾下的 AlphaGo 名声在外,Elon Musk 和 Sam Altman 刚开始组局创办 OpenAI,首要的研究领域就是步 AlphaGo 后尘的游戏决策 AI。 不过 19 年后,两者的研究重心出现了分叉。DeepMind 转向使用 AI 解决基础科学如生物、数学等问题:AlphaFold 在预测蛋白质结构上取得了突破性的进展,另一个 AI 模型 AlphaTensor 自己探索出了一个 50 年悬而未决的数学问题:找到两个矩阵相乘的最快方法,两个研究都登上了 Nature 杂志的封面。而 OpenAI 则转向了日常应用的内容生成 AIGC 领域。 AIGC大模型是通往 AGI 路上极为重要、也有些出乎意料的一站。其重要性体现在 AI 对人类传达信息的载体有了更好的学习,在此基础上各个媒介之间的互通成为可能。 例如从自然语言生成编程语言,可以产生新的人机交互方式;从自然语言生成图片和视频,可以革新内容行业的生产范式。意外性则是,最先可能被替代的不是蓝领,而是创作者,DeepMind 甚至在协助科学家一起探索科研的边界。 OpenAI 的模式也给了下游创业者更多空间。可以类比当年预训练语言模型发展初期,Hugging Face把握机会成为大模型下游的模型开源平台,补足了模型规模膨胀下机器学习民主化的市场空间。 而对 AIGC 模型,未来会有一类基于大模型的创业公司,把预训练完成的 AIGC 模型针对每个子领域进行调优。不只需要模型参数优化,更要基于行业落地场景、产品交互方式、后续服务等,帮助某个行业真正用上大模型。 正如 AI 的 bitter lesson 一样矛盾,投资者需要短期投资回报率、研究者需要短期投稿成功率,尽管OpenAI 走在通往 AGI 正确的路上,这条路道阻且长,短期很难看到极大的突破。而 Sam Altman 展望的大模型应用层公司很有可能有更高的高投资回报,让我们来介绍下主要的分类与创业者。 百家争鸣的 AIGC 大模型应用层 对应 OpenAI 大模型发布的顺序,模型应用层相对最成熟的是文本生成领域,其次是图片生成领域,其他领域由于还未出现统治级的大模型相对落后。 文本领域天然应用场景丰富,且 GPT-3 开放 api 很久,细分赛道很多。大致可以根据生成内容不同分为两类:机器编程语言生成、人类自然语言生成。前者主要有代码和软件行为的生成等,后者主要有新闻撰写、文案创作、聊天机器人等。 而图片领域当前还专注于图片自身内容的生成,预期随着未来3D、视频相关内容生成能力的增强,会有更多结合不同业务场景如游戏、影视这样细分领域的创业公司。 以下是海外各子领域创业公司的梳理,接下来将针对几个领域的重要公司进行介绍。 1、编程语言 文本领域最成熟的应用暂时不在人类自然语言,而是在代码等机器语言的生成领域。因为机器语言相对更结构化,易学习;比如鲜有长文本的上下文关系、基于语境的不同含义等情况。 (1)代码生成:Github Copilot 代表公司是微软出品的 Github Copilot,编程中的副驾驶。该产品基于 OpenAI 专门用 GPT-3 为编程场景定制的AI模型 Codex。使用者文字输入代码逻辑,它能快速理解,根据海量开源代码生成造好的轮子供开发者使用。提高一家科技公司 10% 的 coding 效率能带来很大收益,微软内部已进行推广使用。 相比低代码工具,Copilot 的目标群体是代码工作者。未来的低代码可能是两者结合:低代码 UI 界面实现代码框架搭建,代码子模块通过 Copilot 自动生成。 正如 Copilot 的 slogan:Don’t fly solo,没有 Copilot 的帮助 coder 的工作会变得繁冗,没有 coder 的指引 Copilot 生成的内容可能会出现纰漏。也有用户报告了一些侵犯代码版权、或代码泄露的案例,当前技术进步快于版权法规产生了一定的空白。 (2)软件行为生成:Adept.ai Adept.ai 是一家明星创业公司。创始团队中有两人是Transformer 模型论文作者,CEO 是谷歌大脑中大模型的技术负责人,已经获得 Greylock 等公司 6500 万美元的 A 轮融资。 他们的主要产品是大模型 ACT-1,让算法理解人类语言并使机器自动执行任务。目前产品形态是个 chrome 插件,用户输入一句话,能实现单击、输入、滚动屏幕行文。在展示 demo中,一位客服让浏览器中自动记录下与某位顾客的电话,正在考虑买 100 个产品。这个任务需要点击 10 次以上,但通过 ACT-1 一句话就能完成。 软件行为生成颠覆的是当下的人机交互形式,使用文字或语音的自然语言形式来代替当下人与机器的图形交互模式(GUI)。大模型成熟后,人们使用搜索引擎、生产力工具的方式都将变得截然不同。 2、自然语言 自然语言下还有多个应用型文本生成领域值得关注:新闻撰写、文案创作、对话机器人等。 (1)新闻撰写 最著名的是 Automated Inights。他们的结构化数据新闻撰写工具叫做 wordsmith,通过输入相应数据和优先级排序,能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出 300 余篇财报相关报道,在雅虎体育新闻中也已经崭露头角。据分析师评价,由 AI 完成的新闻初稿已接近人类记者在 30 分钟内完成的报道水准。 Narrative Science是另一家新闻撰写生成公司,其创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。 (2)文案创作 该领域竞争较为激烈,有copy.ai、Jasper、copysmith 等公司。他们基于 GPT-3 的能力加入了文案领域的人工模板与结构,为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith 为例: (3)对话机器人 前面提到的 Adept.ai 由Transformer 模型的一作和三作联合创立;而二作也创业了,他创办的 Character.ai 是当前对话机器人中使用效果最逼真的。 该对话机器人可以自定义或使用模板来定义角色的家庭、职业、年龄等,在此基础上保持一贯的设定和符合设定的对话风格。经常能体现出一定的共情对话能力带给人惊喜,并且支持多语言互通。 比如他们有已训练好的马斯克等名人和一些动漫角色,与他们对话会有很棒的代入感。 而商业化的对话机器人,在客服、销售等行业有巨大的市场空间,但如今还为成熟。 主要出现的问题有二: 其一,客服、销售行业遇到的客户往往情绪状态不稳定,AI 难以对情绪进行适应并调整对话内容; 其二,AI 的多轮对话能力较弱,无法保证持续有效的跟进问题。 (4)创作性文本 AI 对于长文本创作有一定困难,难以保持1000字以上的文本创作后仍能进行上下文的联系。 但基于短文本创作仍有一些有趣的应用,例如基于GPT-3的 AI Dungeon,可以引导 AI 创造一个虚拟游戏世界观。该领域进一步的成长需要期待未来 3-5 年,有成熟的能产出千字内容的 AI 出现。 3、多模态图片 DALL·E2 是极具突破性的 AIGC 大模型,但距离丰富生产力和创造力的成熟产品还有差距。因此有研究者顺着 DALL·E 和 CLIP 的思路开发了开源版本的扩散模型,就像当年的 Hugging Face 那样,并将其根据创作者社区的反馈转变为更成熟易用的商业产品。接下来就介绍几个主要出圈的模型: (1)Disco Diffusion 最早出圈的 AI 绘图工具是开源模型Disco Diffusion。发布时间比 DALL·E 2 稍晚,同样也是 CLIP + Diffusion Model 的结构,生成效果让许多插画师担心起了失业。 尽管很多插画师和 AI 工具爱好者的推荐都认可了该工具的易用性和生成效果的出众,但其生成时间略长有待优化,可以认为是大家对图片生成大模型的初体验。 (2)MidJourney 该模型发布后不久,Disco Diffusion 的开发者 Somnai 加入了 MidJourney,和团队一起打造了一款产品化的 Disco Diffusion。 Midjourney 的创始人 David Holz 并不是以CV(计算机视觉)研究为主,更关注人机交互。产品公测和主要交流平台都基于Discord,使用 Discord Bot 进行交互,打造了相当良好的社区讨论环境。 使用中印象深刻的有几个重要功能:MidJourney 画廊中可以看到每时每刻创作者们用 MJ 创作出的作品,用户可以对作品进行打分,每周排名靠前的作品将得到额外的 fast GPU 时间奖励。 同时,MJ官方还为用户贴心的提供了引导语 prompt 集合和 AI 擅长的风格指南,指导用户如何最高效的生成出他们想要的图片。 基于良好的产品和社区体验,MidJourney 的付费用户量也是目前最大的。 目前收费模式采用了订阅制,个人用户有两个档位,每月最多 200 张图片(超额另收费)的 10 美元/月,以及”不限量“图片的 30 美元/月;对企业客户,单人一年收费仅有 600 美元,且生成的作品可以商用(当前法规尚不完善,仍可能存在一定版权问题)。 (3)Stable Diffusion 如果说 MidJourney 是一个勤勤恳恳的绩优生,那么 Stability.ai 则是天赋异禀技术力强、诞生之初就备受 VC 追捧的富二代,公司估值已达到十亿美元。产品 Stable Diffusion 首要目标是一个开源共创模型,与当年的 Hugging Face 神似。 创始人 Emad 之前是对冲基金经理,用自己充裕的资金联合 LMU 和 Runaway ML开发了开源的 Stable Diffusion,在 Twitter 上使用扎克伯格在 Oculus 发布会上的照片作为背景,号召SD会成为”人类图像知识的基础设施“,通过开源让所有人都能够使用和改进它,并让所有人更好地合作。 Stable Diffusion 可以认为是一个开源版本的DALL·E2,甚至不少使用者认为是当前生成模型可以使用的最佳选择。官方版本部署在官网 Dream Studio 上,开放给所有用户注册。 相比其他模型,有很多可以定制化的点。不过官网只有 200 张免费额度,超过需要付费使用,也可以自行使用开源 Colab 代码版无限次使用。此外,Stable Diffusion 在压缩模型容量,希望使该模型成为唯一能在本地而非云端部署使用的 AIGC 大模型。 05 AIGC大模型的未来展望 1、应用层:多模态内容生成更加智能,深入各行业应用场景 上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后, AIGC 内容能进入商用后,必然会更深入地与业界的实际应用进行结合: 以游戏行业为例, AI 作画给了非美术专业工作者,如游戏策划快速通过视觉图像表达自己需求和想法的机会;而对美术画师来说,它能够在前期协助更高效、直接地尝试灵感方案草图,在后期节省画面细节补全等人力。 此外,在影视动画行业、视频特效领域,甚至是文物修复专业,AI 图片生成的能力都有很大想象空间。当然,这个领域 AI 的能力也有着不小的进步空间,在下面的未来展望部分进行阐发。 目前 AIGC 存在 Prompt Engineering 的现象,即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷,被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化,不会是常态,但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。 2、模态层:3D生成、
视频生成
AIGC 未来3-5年内有明显进步 多模态(multimodal)指不同信息媒介之间的转换。 当前 AI 作图过程中暴露的问题会成为
视频生成
模型的阿喀琉斯之踵。 例如:AI 作画的空间感和物理规则往往是缺失的,镜面反射、透视这类视觉规则时常有所扭曲;AI 对同一实体的刻画缺少连续性。根本原因可能是目前深度学习还难以基于样本实现一些客观规则泛化,需要等待模型结构的优化进行更新。 3D生成领域也有很大价值:3D 图纸草图、影视行业模拟运镜、体育赛场现场还原,都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。 2020年,神经辐射场(NeRF)模型发布,可以很好的完成三维重建任务:一个场景下的不同视角图像提供给模型作为输入,然后优化 NeRF 以恢复该特定场景的几何形状。 基于该技术,谷歌在2022年发布了 Dream Fusion 模型,能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间,预期在未来3-5年内会取得突破性进展,推动
视频生成
的进步。 3、模型层:大模型参数规模将逼近人脑神经元数量 近年的大模型并未对技术框架做颠覆性创新,文本和图像生成领域在大模型出现前,已有较成熟方案。但大模型以量变产生质变。 从神经网络角度看,大脑有约 100 万亿神经元, GPT-3 有 1750 亿参数,还相差了 1000 倍的数量级,随着算力进步可以发展的空间还很大。 神经网络本质是对高维数据进行复杂的非线性组合,从而逼近所观测数据分布的最优解,未来一定会有更强的算力、更精妙的参数堆叠结构,来刷新人们对AI生成能力的认知。 4、成本结构决定大模型市场的马太效应 大模型最直接的成本便是能源成本(energy cost),GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ,大科技公司才能训练大模型。 但随着近年模型压缩、硬件应用的进步,GPT-3 量级的模型成本很可能已降至百万美元量级,Stable Diffusion 作为一个刚发布一个月的产品,已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。 在这样的背景下,算力成本在未来必然会逐渐变得更合理,但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。 大模型有明显的先发优势,来自巨大的隐形成本:智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化,甩开后发的竞争者,达到模型性能的规模效应。 AI 的进化来自于数据的积累和充分吸收。深度学习,乃至当前的所有机器学习都是基于历史预估未来,基于已有的数据给到最接近真实的可能。 正如前文讨论的,OpenAI 的目标从来不是留恋于某个局部行业的商业产品,而是通过模型规模经济,不断地降低人类社会全局的智能成本,逼近通用人工智能 AGI。规模经济正体现在智能成本上。 5、虚拟世界的 AGI 会先于现实世界诞生 从更宏观的视角上,虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景,都对 Corner Case 要求极高。 对于AI模型而言,一件事超过他们的经验范畴(统计上out of distribution),模型将立马化身人工智障,不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损,造成数据积累过程中极大的试错成本。 虚拟世界则不同,绘图时遇到错位扭曲的图片,大家会在 Discord 中交流一笑了之;游戏 AI 产生奇怪行为,还可能被玩家开发出搞怪玩法、造成病毒传播。 因此虚拟世界,尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本,能很顺畅地形成低成本的正向循环。 伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成,虚拟世界内容场景下的 AI 很可能更早触及到 AGI。 来源:金色财经
lg
...
金色财经
2023-02-21
金色Web3.0日报 | Aave储备金库规模增长至近1.5亿美元
go
lg
...
项目进行整合,首个集成的项目是 AI
视频生成
工具 Klon,该项目目前处于封闭测试阶段,用户获得 AI NFT 后可以解锁特定功能,比如在视频中设定特殊语音等。 DeFi热点 1.Aave储备金库规模增长至近1.5亿美元 金色财经报道,据Delphi Digital在社交媒体披露数据显示,去中心化借贷协议 Aave 的储备金库规模已达到 1.43 亿美元,其中包括价值 1.2 亿美元的 AAVE、700 万美元的 USDC、500 万美元的 DAI、500 万美元的 USDT 、以及 200 万美元的 WETH 等。数据显示,过去三个月 Aave 储备金库增长幅度超过了 BenQI 和 Compound,但新地址增长出现下降,可能意味着该 DeFi 协议未来采用仍存在潜在障碍。 2.SushiSwap将于3月9日启动DeFi Kitchen虚拟活动和黑客松 2月3日消息,SushiSwap宣布启动TheDeFi Kitchen:Avirtual DeFi Summit&Hackathon,时间为北京时间3月9日23:00至3月10日03:30。DeFi Kitchen虚拟活动将向所有人开放,黑客松将面向开发者。Sushi Swap已与ETH Dubai合作,将在活动最后发布公告、举办技术研讨会、设立奖项。 3.BonqDAO攻击事件黑客今日抛售520万枚ALBT,获利74ETH 金色财经报道,据PeckShield监测显示,非托管借贷平台BonqDAO攻击事件黑客今日抛售520万枚ALBT,获利74ETH(约合15.5万美元),平均价格在0.015美元至0.035美元之间。 金色财经此前报道,BonqDAO和加密基础设施平台AllianceBlock昨日因BonqDAO的智能合约被漏洞利用,损失约8800万美元。 4.DeFi工具开发公司AUROX发起符合SEC标准的众筹融资 2月2日消息,DeFi 工具开发公司 Aurox 宣布在际交易集团投资的通证化证券平台 tZERO Markets 上发起众筹融资活动,寻求从公众筹集资金以继续产品开发和扩展,本次融资符合美国证券交易委员会 (SEC) 颁布的众筹条例 (CF)。Aurox 由加密交易员 Giorgi Khazaradze、Ziga Naglic 和 Taraz Andreyevich 于 2020 年共同创立,其开发工具为交易者、投资者和机构提供去中心化金融服务,目前已集成 50 多家交易所和 10 万多个交易对,去年已发布 Web3 钱包。 免责声明:金色财经作为区块链资讯平台,所发布的文章内容仅供信息参考,不作为实际投资建议。请大家树立正确投资理念,务必提高风险意识。 来源:金色财经
lg
...
金色财经
2023-02-03
苹果用于创建3D虚拟场景的AIGC呼之欲出 2023年有望成为AIGC的拐点
go
lg
...
难以达到稳定可靠的生成高质量图像;4)
视频生成
:跨模态生成领域的中高潜力场景;5)图像、视频、文本间的跨模态生成:文本到视频转换目前还处于技术尝试阶段;6)策略生成:国内相关游戏厂商普遍存在内部开发或外部测试需求;7)虚拟人生成:视频是短期的发展重点。 西部证券认为,2023年有望成为AIGC发展大年。近期微软、谷歌等全球计软件互联网大厂大力投入AIGC,并开始探索应用层面的突破,AIGC已经来到2年前自动驾驶的应用突破拐点,2023年有望成为AIGC大年。类似ChatGPT的“大模型”作为AIGC的底层平台,将成为AIGC的核心资源。 该机构建议关注:1、自研AIGC大模型或者有相关AI技术布局的上市公司:云从科技、拓尔思、金山办公、科大讯飞、商汤科技等;2、掌握独特场景,拥有AIGC应用场景的上市公司:汉仪科技、万兴科技、新国都、海天瑞声。 吉宏股份(002803)目前在跨境电商板块和SaaS吉喵云的主要业务模块里使用的AIGC技术均是由自己开发。 首都在线(300846)通过对AIGC应用特征及需求场景的深入分析,提供了“云算力解决方案”,可广泛应用于AIGC的文字、图像、音频、游戏和代码的业务场景中,加速AI推理的内容生成,提高用户应用体验。
lg
...
金融界
2023-01-31
上一页
1
•••
37
38
39
40
41
下一页
24小时热点
中美重磅!纽约时报:特朗普希望与习近平达成一项更大更好的贸易协议 中美在讨论让领导人互访
lg
...
决策分析:中国言辞发生实质性转变!美国PCE万众瞩目,英伟达意外恐波动8%
lg
...
中国国家主席习近平“解冻”科技业!金融时报:中国经济陷入通货紧缩周期
lg
...
特朗普、马斯克突传“罕见”行动!《富爸爸》作者:美国经济将崩溃 万物泡沫坚定持仓比特币
lg
...
【直击亚市】特朗普对中国最新攻击!美元热度减弱,德国选举结果出炉了
lg
...
最新话题
更多
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
19讨论
#链上风云#
lg
...
60讨论
#VIP会员尊享#
lg
...
1753讨论
#比特币最新消息#
lg
...
905讨论
#CES 2025国际消费电子展#
lg
...
21讨论