全球数字财富领导者
CoNET
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
香港论坛
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
AI 赋予文字无限力量:“由文本生成一切”的一年
go
lg
...
叹,如果我们想实现“真正的”通用智能,
深度
学习
不是办法,但“文本到图像”模型无疑适合运用深度神经网络的力量。
深度
学习
模型中的一些互补性进展,使得“文本到图像”模型取得了进一步的飞跃:扩散模型被发现,实现了极高的生成图像质量。(参见论文Diffusion Models Beat GANs on Image Synthesis)。 DALL-E 2的发布时间距离DALL-E约一年多,利用扩散模型的技术进步,创造出比DALL-E更逼真的图像。而DALL-E 2的风头很快就被Imagen和Parti抢去——前者使用扩散模型展现了惊艳的水准,后者则摸索出了一种补充性的自回归方法来生成图像。 故事并没有到此结束。Midjourney是一个用于图像生成的商业扩散模型,由同名实验室发布。稳定扩散(Stable Diffusion)模型借鉴了对潜在扩散模型的新研究,可以用有限的计算资源进行训练,因为Stability AI公司选择公开该模型及其权重,Stable Diffusion的发布受到了万众瞩目。 神经网络架构的创新并不是促成以上改进的唯一原因。雅虎在2015年发布了Yahoo Flickr Creative Commons 100 Million Dataset(YFCC100M),在当时是有史以来最大的公共多媒体数据集合。最近,Large-scale Artificial Intelligence Open Network(LAION)发布的数据集更在规模上令YFCC100M黯然失色。2021年发布的LAION-400M包含4亿个图像-文本对,然后是2022年发布的LAION-5B包含50亿个图像-文本对。 值得注意的是,虽然这些数据集能够大规模地训练图像-文本模型,但它们并非没有问题。The Decoder的报告曾发现LAION的数据集包含未经同意发布的病人图像,研究人员也评论说,该数据集的质量并不纯正。如此庞大的数据集必然会有其他的伦理问题出现,OpenReview上的作者和审稿人似乎就这些问题进行了颇有见地的意见交流。 从文本到一切! 如果人工智能模型可以将文本转换为图像,那么它们可以将文本转换为视频吗?当然可以!10月份,一批从文本到视频的生成软件面市。Meta公司的Make-a-Video可以根据文本和静止图像生成视频,而谷歌大脑的Phenaki可以根据一系列构成故事的提示词生成一个连续视频。 也许更有用,或者说更令人担忧的是,这些生成模型也能胜任代码的编写。当用户注意到GPT-3可以写出像样的代码时,GPT-3开始登上新闻头条,声名鹊起。从那时起,代码生成语言模型的能力有了很大的进步。OpenAI的Codex能将自然语言转化为代码,并且许多其他类似的模型也在纷纷效仿。DeepMind的AlphaCode也能以合理的水平解决编程问题。 这些技术进步彼此追赶的速度令人印象深刻,正如Kevin Roose等人所评论的那样:“AI的发展速度如此惊人,怎么强调都不为过。我刚写完一篇关于AI惊人发展速度的文章,市场上就有了一些重大发布,包括OpenAI的Whisper(语音到文字的转录软件)和文字到视频的生成软件。” 而且AI还可以更进一步:文本也可以转化为其他媒介,包括音频、动作和3D。 而且,正如我们的同伴Jacky Liang博士所展示的,语言模型甚至可以根据自然语言指令编写机器人政策代码。 看起来生成式AI的可能性是无穷无尽的。我们只是看到了人工智能模型创造力的雏形。我预计,随着越来越强大的模型开发出来,文本将能够指导大量的发明创新。红杉资本最近发布的《生成式AI应用格局》,已经展示了许多不同的细分赛道。 在一个特定的生成赛道内,有许多可能性和商业领域可以应用这种类型的生成工具。文本生成不仅可以承担文章的写作,还可以承担平台的后期语言调整;图像生成和文本转3D工具可以为游戏、信息应用和市场营销创造各种工艺品;其他应用提供了生成文档的能力。而且,正如上图所指出的,音乐、音频和生物/化学方面的应用还没有到来。 ChatGPT和更多的“文字到文字” 即使是在“文本到文本”领域,也有海量的事情可以做:最近推出的ChatGPT在互联网上炸开了锅,基本上是因为该模型有能力以对话的形式全面回答问题。你可以要求它为你制定一个简单的锻炼计划,写一个课程大纲,建议你做什么,向你某位哲学家的作品,以及其他很多事情。 不够值得注意的是,ChatGPT的知识有严重的局限性。 事实上,如果你要求ChatGPT提供关于某个特定主题的更多细节(例如普鲁斯特关于时间性质的想法),它就会开始自己绕圈子——挺符合你对一篇高中生作文的期望。事实上,ChatGPT的存在可能会改变我们对写作技巧的某些方面的理解。 > 也许有理由感到乐观,如果你把这一切放在一边。也许每个学生现在都能立即进入更高的写作层次,每个学生都可以直接进入写作事业的更精细的方面,任何难以模仿的东西都将变得更明显。逗号连接、主谓不一致、冗长的修饰语等令人头痛的机械性问题都不复存在,写作的基础技能已经直接给定了。 正如我所提到的,ChatGPT似乎还只能对它所阐述的主题作比较浅层次的描述,无法太深入。它可以写得足够流畅,并给你一些所需要的细节,但如果你能提供它所缺乏的深入分析和深刻理解,它就还不能替代你的工作。 文本能超越自己吗? 通过在多模态数据集上训练模型,我们可以理解文字、语言中编码的信息如何映射到图像、三维图像和我们周围世界的其他表现形式。“文本到图像”表明,生成的图像可以反映精确的文字描述。但是生成式AI还不能做到尽善尽美,Stable Diffusion模型在其生成的图像中明显存在着赋予人类正确手指数量的问题。 但值得注意的是,在“文本到图像”系统中,仅仅通过扩大语言模型就能实现改进。Imagen使用仅在文本上训练的T5编码器(110亿个参数),产生的图像比DALL-E 2更逼真,后者的文本编码器已被训练为产生类似于匹配图像嵌入的文本嵌入。 也就是说,将文本转化为其他模态的可能性(我们可以做什么,以及我们用目前的方法能走多远)并不明显。对那些看到真正发展限制的观点,我感同身受:尽管“文本到图像”数据集可以告诉我们这个世界的很多景象,但它们不存在于物质世界中,缺乏像我们一样能够与物体、与其他人类互动的能力,并通过互动从周围世界中收集视觉和非视觉信息。 但是显然,有很多事情可以做。谷歌最近的RT-1(变形机器人)展示了如何利用自然语言来解决机器人任务。 “ChatGPT可以为你策划一场主题派对,但它能帮你在派对结束后打扫屋子吗?很可惜不能。我在谷歌机器人的朋友刚刚公布了RT-1,一款带有眼睛、手臂和轮子的变形机器人!” 正如François Chollet在一次采访中向我指出的那样,在“文本到图像”这个领域,神经网络的能力可以大放异彩。我也对潜在的二级应用场景感到兴奋,比如在文本指导下的分子设计和其他并不显而易见的创意。 然而,我认为要真正发掘“文本到X”模型的潜能,着实需要有更好的界面:我们需要以更好的方式,向模型表达我们的意思、概念和想法。提示工程作为一门学科出现,可以反映出我们目前与GPT-3等模型的交流方式是低效的。 展望未来,我认为在我们使“文本到一切”成为现实的过程中,我们需要解决两个驱动发展的问题: 1. 我们如何构建界面,使我们能够更好地将我们的意图传达给AI模型? 2. 这些模型能够为我们带来哪些有用的生成结果或行动? 但是在实际问题之外,我认为另一个问题更有意思:文本到{文本、图像、视频等}的模型并不完美,但非常好用。在将想法以图像或视频的形式呈现出来这一方面,这些模型远比普通人,甚至是本身颇有艺术造诣的人类要好得多。正如Daniel Herman关于ChatGPT提出的问题:对从事艺术、从事视频制作而言,文本到一切意味着什么?我们是否会进入这样一个时期:艺术的基础知识变得更加商品化,任何人都可以通过不同的媒介,以更精细的艺术手法传递自己的思想?在那里,水彩画的技巧被简化为提示中的文字,剩下的就是人类和AI系统之间的共舞互动? 一如既往,我们不应该夸大这些AI系统的能力——它们经常会出现显而易见的错误。但是,当遇到正确的问题时,AI可以表现得很出色,为人类提供更多空间去做更有趣的事情,并追寻写作、艺术的更高层次。 而且,除了这些直接的应用之外,“文本到X”模型及其基础技术还有哪些尚待探索的进一步应用?研究人员已经在考虑如何使用NLP模型来预测蛋白质的氨基酸序列,这是预测字母序列的一个明显的应用,离生成文本只有一步之遥。投资者和人工智能报告的作者Nathan Benaich,在我最近与他的谈话中提到,他对最先进的扩散模型如何应用于生物和化学领域感到兴奋。 今年是“从文本到一切”的一年,如果说从今年的惊人发展中可以学到什么的话,那就是文本作为一种“发出指令”的媒介,正变得更加强大。你不需要艺术培训,也不需要一套数字艺术软件或绘画工具,也能来把“漂浮的城市”这一想法变成视觉现实。你可以把它说出来或打出来,让它存在。 你将用你的文字创造什么? 来源:DeFi之道 作者:Daniel Bashir 来源:金色财经
lg
...
金色财经
2023-02-26
本周互动易热词:毫米波雷达、数据中心、AIGC……
go
lg
...
力和产品应用场景,积累了丰富的场景化的
深度
学习
、图像分析技术、自然语言处理、语音识别等人工智能技术和模型,为行业提供人工智能综合应用解决方案。感谢您对公司的关注与支持! 中装建设 [002822] 问 你好,目前公司旗下在数字基础设施建设都有哪些方面的布局? 答 您好,公司建设有五沙(宽原)大数据中心项目,谢谢您的关注! 科士达 [002518] 问 您好董秘,未来数据中心会向高算力、高密化方向发展吗?贵公司对未来有何打算,是否会进一步扩大数字化业务。 答 “东数西算”工程是通过加大西部地区算力基础设施建设,以支撑东部地区算力需求,未来的发展方向取决于国家政策、市场需求、技术创新等。公司以数据中心业务起家,是行业中产品品种最齐全的公司之一,包括UPS、精密空调、精密配电、蓄电池、网络服务机柜、动力环境监控等设备和系统,面对市场需求,公司会抓住机会,努力发展各板块主营业务。 AIGC 数码视讯 [300079] 问 请问董秘,贵司有ChatGPT、AIGC方面技术储备或者技术运用吗?贵司在数字水印技术方面开发和运用是否在国内属于第一梯队?谢谢 答 您好,公司多年来积极研发AI技术。在视频内容领域,公司通过AI技术对视频内容分辨率进行智能提高,自动生产获取高于成像系统分辨率的图像,利用AI算法AIGC自动生产高清、超高清视频内容。公司的AI技术还可对于设定的识别元素,如精彩画面,比如足球赛事进球、红黄牌、越位等画面,能够实现快速的识别整理并AIGC生产单个视频。该技术针对体育赛事、影视内容的精彩镜头、宣传片物料等实现AI生成的方式,在实效性、大批量生产等方面相较于人工有极大提升。此外,公司拥有支持超高清视频的内容生产系统,可以为互联网视频、IPTV、OTT及短视频提供便捷的视频生产能力,并且已在相关领域商用。公司拥有的融合云视频平台方案,立足于视频云计算SaaS的综合服务,汇集
深度
学习
和大数据分析的AI技术,可满足多应用场景的融合业务。感谢关注。 中信出版 [300788] 问 公司在人工智能,Ai,自然语言识别,chatgpt,aigc等领域有何业务或者技术储备?在AI算力方面有相关基础业务吗?能否简单介绍下,谢谢漂亮的董秘。 答 尊敬的投资者您好,公司密切关注新技术在内容领域的应用,目前正就AIGC在内容生产传播等领域的应用开展可行性研究论证,将围绕可持续提升公司内在价值的目标,通过自研或合作等方式开展创新业务。感谢您对公司的关注。 科远智慧 [002380] 问 董秘您好:请问公司是否有最近市场很火的chatGPT概念?如果没有后期是否准备投入。谢谢! 答 尊敬的投资者,您好,公司目前尚无chatGPT方面的技术积累,后期可考虑将其通过API接口接入到公司相关工业APP之中,部分实现AIGC等工业人工智能的应用,谢谢! 中文在线 [300364] 问 您好,听闻中文在线是全市场最早用AIGC的公司,麻烦详细介绍一下情况。 答 尊敬的投资者,您好:公司深耕数字内容20余年,AIGC是利用人工智能技术来生成内容,被认为是继PGC、UGC之后的新型内容创作方式。公司在内容领域拥有领先的认知并迅速推动产品落地,目前已上线3款AIGC产品,分别为AI主播、AI绘画和AI文字创作功能。其中AI主播已在有声书生产中应用,根据文字故事情节的真实语境,用独创的情绪情感控制模块,结合语音
深度
学习
合成技术,真实还原角色情感,生动模拟人声音色以塑造角色,讲述故事。AI文字创作功能已在17K小说网上线,可自动生成文字内容,作者在使用该功能时,通过针对不同的描写场景填写关键词和辅助短语,即可生成对应的文字内容描写用于作品使用,目前可针对人物、物品等进行AI文字创作,并针对不同的作品类别如古风、都市等进行语言调整,释放创作者更多的精力和重心放在内容故事创作上,从而为平台及整个行业输出更具有价值的精品内容;AI绘画已在海外产品Chapters等产品中使用,通过文生图,产生的图片使用在互动式视觉阅读中。同时,公司也在研发推动更多AIGC产品落地,未来随着技术的迭代更新,AI会在更多应用领域提升目前的内容生产方式。 铜牛信息 [300895] 问 请问公司为AIGC,chatGPT提供算法,算力的规划是什么? 答 您好,公司将依托自建数据中心和国资云计算平台为AIGC,ChatGPT相关应用场景提供数据存储和数据计算等技术服务。感谢关注! 首都在线 [300846] 问 公司在人工智能,Ai,自然语言识别,chatgpt,aigc等领域有何业务或者技术储备?在AI算力方面有相关基础业务吗?能否简单介绍下,谢谢漂亮的董秘。 答 尊敬的投资者:您好,公司通过对AIGC应用特征及需求场景的深入分析,提供了“云算力解决方案”,云算力解决方案可广泛应用于AIGC的文字、图像、音频、游戏和代码的业务场景中,加速AI推理的内容生成,提高用户应用体验。公司提供边缘侧的推理算力支持AIGC应用针对GPU服务器的特殊性,自主开发了自研管理芯片及配套的管理系统,完善了边缘云节点的实施效率及运营能力,搭建了面向ChatGPT行业的泛渲染异构算力公有云平台,新一代算力平台可为ChatGPT类人工智能应用提供算力、算法、云渲染等技术服务,已为国内多家涉及人工智能类客户提供服务。感谢您的关注! 钠离子电池 宁德时代 [300750] 问 董秘你好,之前贵司说23年实现钠电池量产和产业化,但是至今未看到贵司有钠电池产品出来,钠电池是否还停留在实验室阶段呢?请问现在对钠电池量产还有信心吗?量产时间是在下半年还是上半年,谢谢 答 投资者您好,公司正致力推进钠离子电池在2023年实现产业化,感谢您的关注。 中科电气 [300035] 问 董秘好,看资料贵公司主要收入来自锂电池负极材料生产,请问该类材料适合钠离子电池使用吗?如果钠离子电池负极材料需求爆发,短时间内(一年内)贵公司有技术能力和产能改造能力提供该类材料吗?盼复,谢谢。 答 钠离子电池所需要的硬碳材料的生产与现有石墨类负极材料生产的部分产能可以共用,公司有持续进行钠离子电池所需的硬碳材料的开发。谢谢! 传艺科技 [002866] 问 根据今日公司抖音发布的视频,公司去院校宣讲,ppt的内容是,公司钠电池总规划18gw,并配套相应材料,项目周期两年半,4.5gw-2022年6月正式量产,剩下13.5gw于24年底全部量产,请问公司是否已经确定二期规划是13.5gw? 答 尊敬的投资者,您好!公司钠离子电池项目一期产能规划为4.5GWh,二期产能建设规划后续将视一期项目进展情况和市场需求情况具体制定,感谢您的关注。 美联新材 [300586] 问 您好!贵公司发展一步一个脚印,未来规划也很好。就是不知道为何会选择七彩化学这样的PPT公司一起合作投资建设钠电池,能否做个说明?谢谢 答 您好!感谢您的肯定及对公司发展战略的认同。公司具有普鲁士蓝(白)上游核心原材料氰化钠的产能、成本、技术优势,而七彩化学拥有普鲁士蓝(白)产业化技术、成本以及环保处理优势,双方形成的战略合作可达成优势互补、协同共赢的目标,公司将协同七彩化学,加快推进钠离子电池材料项目建设工作,推动钠离子电池产业发展,以更好的业绩回报股东、回馈社会。感谢您的关注! 万顺新材 [300057] 问 董秘好,是否钠离子电池铝电箔用量比锂电池高出几倍?贵司钠离子电池项目进展如何,送样钠电池铝电箔完成验证了吗?是否能够满足量产需求 答 您好,钠离子电池正负极均可使用铝箔,公司电池铝箔可满足钠离子电池需求。谢谢您的关注。 道氏技术 [300409] 问 公司有生产钠离子电池的技术吗?后续有没有可能自己生产钠离子电池,进入储能行业! 答 尊敬的投资者,您好!公司的钠离子前驱体已有几十吨的出货量,相关进展情况请关注公司后续在巨潮资讯网(http://www.cninfo.com.cn)披露的有关公告。感谢您的关注! 充电桩 香山股份 [002870] 问 公司公众号写到:国际便携式充电宝的商机同比增长达268%,家用储能系统的商机增长125%。香山股份亦在相关领域进行了技术储备以及产品的布局和销售。请问,公司在储能领域具体有什么技术和产品? 答 公司正在研发的第三代充电桩可以更好的集成充电与储能的功能,实现场景的充、储、放一体化应用。感谢您的关注! 科大智能 [300222] 问 你好!贵公司在光储充一体化充换电站方面一直都与蔚来有合作?最近蔚来积极布局充换电站建设,贵公司与蔚来的合作是否有进一步的扩大?贵公司除了与蔚来在光储充一体化充换电站建设方面有合作,还与那些企业有合作?有积极争取与特斯拉的合作吗?谢谢! 答 您好,公司为蔚来提供过换电站产品,目前公司与蔚来在随车配充电桩等方面有业务合作。谢谢! 万马股份 [002276] 问 随着高压快充的普及,更加轻便的水冷电缆需求量大增,作为电缆绝缘料龙头企业,是否能开发出轻便、安全、耐候的充电枪专用电缆,占领这一块细分市场呢? 答 尊敬的投资者,您好!公司充电桩枪线由万马新能源研发,万马专缆生产,具有防护等级高、温升低、使用寿命长、抗碾压等技术特点。公司会持续关注市场需求,继续加强充电桩相关产品的研发力度。感谢您的关注! 银河电子 [002519] 问 尊敬的董秘您好,请问公司的充电桩业务占比多少 答 您好,公司充电桩业务占公司整体业务体量不到10%,对公司整体影响较小。 拓日新能 [002218] 问 您好,公司在太阳能领域的优势有考虑布局在充电桩上吗? 答 您好,公司具备建设集成式光伏车棚电站设计、建设、运营及配备储能+汽车充电桩等能力,在深圳光明产业基地已建设30千瓦光伏+储能+新能源汽车充电桩的光伏车棚示范项目,未来将视市场情况布局推广应用。感谢您的关注! 英威腾 [002334] 问 你好,能否具体介绍下贵公司的充电桩平台系统?该平台是否支持高压快充模块? 答 尊敬的投资者,您好!英威腾充电桩主要有交流充电桩、直流充电桩、充电模块和移动充电系统,可用于固定充电桩充电和户外应急移动充电,能够适应不同车型、不同功率的电动大巴、物流车、电动汽车等。公司有30KW快充模块产品应用于市场。感谢您的关注。
lg
...
金融界
2023-02-26
AI新时代 是时候重估百度了
go
lg
...
直接支撑文心大模型的平台,是飞桨产业级
深度
学习
框架。这是目前被广泛使用的
深度
学习
框架。截至 2022 年 11 月底,飞桨平台上已凝聚 535 万开发者、创建 67 万个 AI 模型,服务 20 万家企事业单位,位列中国
深度
学习
平台市场综合份额第一。在百度 AI 能力的整体架构中,
深度
学习
框架位于第二层,整体的四层能力包括「底层芯片 +
深度
学习
框架 + 大模型 + 应用层」。 去年底,百度发布了最新的生成式 AI 产品「文心一言」,这是应用层的最新产品,目前已经被不少新媒体用来生产配图素材。这是一个 AI 作画平台,由飞桨学习框架和文心大模型提供技术支持。百度集团副总裁、
深度
学习
技术及应用国家工程研究中心副主任吴甜介绍,百度将文心大模型已经形成「模型层 + 工具与平台层 + 产品与社区层」的整体布局。 「文心一格」产品的发布,意味着百度已经开始积累大模型的工程化落地能力,而接下来「文心一言」产品的发布,将沿着这一方向进行更多探索。 「文心一言」融入更多业务
深度
学习
三巨头之一的 LeCun 表示,新的 AI 热潮,将带来企业内部
深度
学习
研发的复兴。对于百度来说正是如此。与学术性质的研发不同,在企业中的技术研发,不仅仅涉及概念验证,还因探索与业务场景结合、规模化而需要更大成本。 如微软总裁纳拉德所说,AI 将从根本上改变每一个软件类别。如今,正来到了探索大模型与更多业务场景结合、赋能产品的加速时期。百度也已经公布了相关规划。 三月份即将发布的「文心一言」(ERNIE Bot)是基于文心大模型所发布的新的语意理解平台。从英文名 Bot 可以看出,底层的技术将是一个类似聊天机器人(Chatbot)的对话模型。「文心一言」将会利用跨模态、语言理解和生成能力等,为人们提供自然流畅的聊天体验。 对于百度来说,拥有了这样的新技术平台,首先能够提升的便是搜索产品。目前,搜索产品的收入大约占到百度整体收入的 60%,依旧是最重要的产品之一。 多年来,搜索产品的形态和用户体验没有太大的变化。当对话体验与原有的搜索引擎形成互补,用户在搜索相关链接的同时,也能够直接阅读定向生成的内容,将是十多年来搜索产品最显著的一次产品变革。这也将成为互联网的新流量入口。 这种对话能力,还能够接入智能座舱的场景中,以语音交互的形式体现。前不久的三里屯体验中心启动会上,集度汽车 CEO 夏一平表示,「集度将融合百度文心一言的全面能力,支持汽车机器人实现自然交流的再进阶。」当新的模型能力接入汽车终端,人们在座舱内不仅能够通过语音对设备进行更全面的控制,还能够获得类似于和一个「人」交流对话的体验。 集度概念车内景|来源:集度 除了 C 端产品之外,模型能力也将接入百度的智能云中,为 B 端服务能力带来提升。百度集团执行副总裁、百度智能云事业群总裁沈抖表示,「文心一言」将通过百度智能云对外提供服务,率先在内容和信息相关的行业和场景落地。 将大模型的能力引入云服务,将是必然的趋势。微软此前已经表示,计划将 OpenAI 的多项技术引入 Azure 云服务中,包括 ChatGPT 以及绘画模型 DALL-E。将来,通过云服务的方式,AI 改写软件的进程才会真正发生。 百度智能云宣布,将在 5 月推出针对「文心一言」模型的 API 接口。这将使百度智能云在语音合成、机器翻译、自然语言处理方面的服务能力提升,客户可以直接调用相关能力应用到具体的场景里。 去年百度智能云年增长为 12%,在 AI 云市场位列第一。具体而言,在数字人、智慧城市等领域,百度智能云为市场份额第一。百度搜索业务之外的其它业务,主要受智能云及其他 AI 驱动业务的推动。大模型能力的接入,将带来更强的增长势能,也将拓展 AI 云的服务范围。 来源:元宇宙之心 来源:金色财经
lg
...
金色财经
2023-02-25
Trantor 平台上线 Arbitrum 及 Sui 生态嘉年华空投活动
go
lg
...
接用户链上链下行为和经济模式,激励用户
深度
学习新
生态、增强交互体验。辅以限时嘉年华活动聚合效应,为生态项目吸引更多高质量用户,为用户提供专属权益,实现一站式用户拉新/教育/留存。 Trantor 作为 Web3 营销增长平台,通过引导用户完成链上链下交互活动,为项目方高效完成品牌推广及用户积累。同时,用户通过领取项目方分发的 SBT,来实现忠诚度绑定,丰富个人的 DID 数据,并可获得项目方给予的额外奖励。 来源:金色财经
lg
...
金色财经
2023-02-25
Caduceus去中心化边缘实时渲染协议:探索NFT在元宇宙赛道的发展
go
lg
...
容性、多样性和独特体验。AIGC在经过
深度
学习
后,能够驾驭不同艺术风格创造出具有新生命的艺术画作,AI在NFT产品开发上具有天然适配性。可以预见,通过AI等技术的结合,NFT产品成为元宇宙新入口或新业务平台。 最后在数字经济和元宇宙发展中,Caduceus的NFT功能与生态发展是相辅相成的关系,生态开放给用户释放参与机会,触达更多商业使用场景。开发者和用户自发的自传播效应也能快速积累大量注意力、资金和人才,进而激发创造力。NFT市场也将迎合广泛的受众,从专业交易者到新手玩家,允许NFT资产向更多买家开放,Caduceus也必将成为NFT应用时代引领Web3增长的下一个引爆点。 来源:金色财经
lg
...
金色财经
2023-02-24
从嘲笑到封神:
深度
学习
之父 Geoffrey Hinton 的坚持与胜利
go
lg
...
时一定只是个笑话。但是这句经典语录出自
深度
学习
之父——Geoffrey Hinton Hinton 坚信人工智能应该是像人类一样可以思考和学习。而人工智能的实现就是要模仿人脑功能,通过人工神经网络来实现高维数据,如图像、语音的输入、输出和建模。 对于身处当下的人们而言,这是毋庸置疑的。但是在 1990 年代,这种想法简直就是天方夜谭。那时候的算力、存储和数据量根本无法支撑一个构建类似人脑的智能系统。人们普遍认为 Hinton 疯了,即便没有疯,也一定有另外的阴谋。 做正确的事情不难,难的是坚持做正确的事情。因为正确与否的验证往往不是立刻被证实的,有时候需要等上几年,甚至几十年的时间。而 Hinton 坚持人工神经网络的观点被质疑甚至嘲笑了三十几年。 随着计算机科学的发展,算力逐渐能够支撑起庞大的数据计算。终于在 2012 年,Hinton 带队参加 ImageNet ILSVRC 挑战赛,他们的研究成果 Alexnet 在图像识别任务上,以低于第二名 10% 的错误率获胜。这个比赛是计算机视觉领域的顶级比赛之一,这次完美的获胜让人工神经网络、
深度
学习
的概念开始走入人们的视野。而 Hinton 也从一个一无是处的老头,逐渐走上了神坛。这个世界总算跟上了 Hinton 的脚步。 为什么 Hinton 能够打破时代技术条件的限制,坚持自己的方向呢? 伟大的科学家往往拥有大胆的想象,不折不扣的信念。他们是真正的世界边界拓荒者。 Hinton 认为
深度
学习
可以以无监督的方式从数据中学习,这意味着它可以识别数据中隐藏的模式和关系,而不需要明确的标签或指导。 这对于处理图像、音频和自然语言等复杂的高维数据尤为重要,这些数据很难甚至不可能手动标记所有相关特征。 另一方面,
深度
学习
可以表示具有大量参数的复杂函数,这使其能够对输入和输出之间的复杂关系进行建模。 这对于图像和语音识别等任务尤为重要。 如今
深度
学习
已经成为人工智能的核心,并在开启一个伟大的智能时代。 来源:金色财经
lg
...
金色财经
2023-02-24
ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」
go
lg
...
子,同学们就能够掌握这项能力。 但对于
深度
学习
模型来说,它通常需要学习(训练)成千上万的例子才能掌握一项新的能力,但大家发现 GPT-3 却像人类一样具有类似的能力。而且重点在于,只需要给它展示几个例子,它就会「有样学样」地完成例子给出的任务,而不需要进行额外的训练(即不需要进行常规训练中的梯度反传和参数更新)。后来的研究表明,这种能力是巨型模型所特有的,被业内叫做「在上下文中学习」(in context learning)的能力。 GPT-3 论文中所展示的英语翻译法语的 In context learning 能力。 实际上,小样本学习能力本身并不是很惊人的发现。毕竟业内一直都在对小样本学习进行研究,很多专攻小样本学习的模型都有出色的小样本学习能力。但 GPT-3 展示出来的这种「在上下文中学习」的小样本能力却非常出人意料,其原因也和 GPT-2 所展示的多任务能力一样: GPT-3 并没有为了获得小样本的能力而在训练数据、训练方式上做特别的设计,它依然只是一个用语言模型任务训练的生成式模型; GPT-3 的小样本能力是以「在上下文中学习」的方式展现出来的。换句话说,想让它获得新的能力,不需要对它再训练,而只需要给它看几个示范的例子。 除了这个能力以外,GPT-3 还展示出了优秀的文本生成能力,相比 GPT-2,它生成的内容更加流畅,而且可以生成很长的内容。这些能力综合体现在一个模型上,让 GPT-3 在当时成为了大家的关注焦点,它也成为 OpenAI 正式对外提供服务的模型。 但随着这个模型服务的开放,越来越多的人尝试使用这个模型。从这时起,OpenAI 通过开放给公众的方式,同时也在收集着更具有多样性的数据(用户使用时输入的内容可能会被用于模型的训练,这一点是写在用户条款中的),这些数据在后来的模型迭代中也发挥着重要的作用。自此 GPT 系列模型的数据飞轮便转动了起来,越多优质的用户数据,迭代出效果越好的模型。 与 ChatGPT 不同的是,GTP-3 并不是采用对话的形式交互的模型,而是一个文本的续写模型(也就是在你输入的文字后面接着往下写),因此它并不具备如今的 ChatGPT 所拥有的多轮对话能力。但它已经能够干很多的事情,例如编写故事、给邮件做自动补全等等。但同时,大家也慢慢发现了一些问题,例如它会一本正经地输出不符合事实的内容,并且会输出一些有害的言论等等。这是这种文本生成模型最突出的弊端,虽然经过多次迭代,但 ChatGPT 如今也依然面临类似的问题。 CodeX,让计算机自己写代码 OpenAI 在对 GPT-3 的研究中还有一个意外的发现,它能够根据一些注释生成很简单的代码。因此在随后的 2021 年,他们对生成代码这件事情进行了专门的研究投入,并发布了 CodeX 模型。它可以看作是一个有着代码专精能力的 GPT 模型,能够根据自然语言输入生成比较复杂的代码。 从外部视角来看,我们无法判断代码生成的研究与 GPT 系列模型的研发是否在同时进行。但放在当时,让模型具有生成代码的能力,从实用化的角度来说确实更加具有意义,毕竟 GPT-3 还未拥有如今 ChatGPT 这般强悍的能力。另一方面,让模型去生成代码也能规避它生成有危害文本内容带来的风险。 在 CodeX 论文中提及了几个要点,首先是让经过文本数据预训练的 GPT 模型在专门的代码数据(数据来自 github 的开源代码,一共 159G)上训练确实能够明显提升模型对代码的理解和输出能力。其次是论文中用的是一个 120 亿参数的「小」模型,这个信息从侧面反映出 OpenAI 内部除了对外开放接口的 1750 亿参数的 GPT-3 模型外,还有别的不同大小的模型版本。 而加入代码训练,让模型获得理解和生成代码的决定,原本的初衷也许只是希望 GPT 能够多一种应用场景。它看似与 GPT 系列模型在理解和运用自然语言的能力没有太大的联系,但根据后续的研究(详细的分析请参考文章《拆解追溯 GPT-3.5 各项能力的起源》),增加对代码数据的训练很有可能触发了后来的 GPT 模型在自然语言上的复杂推理和思维链的能力。 也许在 OpenAI 做 CodeX 之初并没有预料到会有这样的结果,但就像他们一直使用文本生成任务来做 GPT 模型,然后在 GPT-2 和 GPT-3 中「解锁」了「多任务的能力」和「在上下文中学习的能力」那样,代码数据的引入又一次让他们获得了意料之外的收获。虽然看上去似乎有一些偶然,但对技术路线的前瞻性认知,加上坚持与持续的投入显然是一个至关重要的因素。 InstructGPT,让 GPT 好好说话 在前面我们提到了 GPT-3 虽然已经有很强的能力,但上线以后随着使用的人越来越多,也发现了很多问题,最严重的应该要数「一本正经地胡说八道」和「输出带有危害性的内容」这两点了。虽然在 2021 年 OpenAI 似乎暂时将重点放在了让模型理解和生成代码这件事情上,但他们应该一直在尝试解决 GPT-3 的这些问题。 在 2022 年初,OpenAI 发表了 InstructGPT 的论文(Training language models to follow instructions with human feedback),从中我们可以一窥解决这些问题的方法。论文的核心理念是让模型接受人类的教导(反馈),这一点在标题中就已经开宗明义了。 GPT-3 之所以会出现「一本正经地胡说八道」和「输出有害的内容」这样的问题,其根源来自于它所使用的训练数据。像 GPT-3 这样的庞然大物,对数据的需求量是海量的。我们从 GPT-3 的论文中可以找到它的数据来源,大致可以划分为三类:网页内容、百科内容以及书籍。虽然网页内容的量非常大,但也非常「脏、乱、差」,自然会包含很多非真实性和有害的内容。GPT-3 在这些数据上进行训练,自然也就学到了这些东西。 但作为一款对外提供服务的产品,GPT-3 的回答应该更小心一些。要解决这个问题,其中的一难点在于怎么去定义模型应该怎么说话。因为生成模型的输出内容是自然语言本身,而不是一个分类的标签或一个实体名词这种有明确的、客观对错的内容。没有明确的对错,就导致无法像训练经典的 NLP 模型那样直接针对目标设计训练任务。 而 InstructGPT 给出的解决思路是非常直接的,既然对于「好的回答」这个评价指标有很多不同的影响因素,这些因素又相互交织在一起,那就让人来教它怎么写回答。因为人类是比较善于处理这种「既有明确的要求,又有模糊的范围」的问题的,让真人写一些「优秀范例」,让模型去学习这些「优秀范例」,这正是 InstructGPT 提出的总体思路。 具体而言,InstructGPT 提出了两个阶段的路径来让 GPT 学习人类给出的「优秀范例」,第一阶段是监督学习,第二阶段是强化学习。在第一阶段中(对应下图中最左边的 Step 1),让真人根据不同的 Prompt(粗浅可以认为是我们使用 ChatGPT 时,在对话框里输入的那条文本,在业界这个东西叫做指令)写真实的、无害的、有用的回答。实际操作过程中,为了保证这些内容的质量,会给写回答的标注人员一些规范性的指引,然后让已经经过预训练的 GPT 模型在这些人类编辑的数据上继续训练。这一阶段可以看作是对模型的一种「规训」,用一个不严谨的类比来说,就像语文老师让你默写优秀范文那样。 图片来自 InstructGPT 论文,提出通过监督式的指令微调 + 人类反馈的强化学习来让模型的输出变得合理。 第二阶段是强化学习,技术上分为两步。第一步(对应上图中间的 Step 2)是让被「规训」后的模型根据不同的 Prompt 生成多个不同的回答,并由人来给这些回答按照好与差的标准来排序。然后用这些标注了优劣之分的数据训练一个打分模型,让它可以自动给更多的数据进行排序打分。强化学习阶段的第二步(对应上图中右边的 Step 3)就是利用这个打分模型作为强化学习中的环境反馈,以策略梯度(Policy Gradient,准确地说是 PPO 算法)的方式对已经「规训」后的 GPT 模型进行训练。整个第二阶段的过程可以看作是对模型的一种「强化」,再用一个不严谨的类比来说,就像语文老师给你写的作文打分,让你从分数中分辨什么是好与不好,然后不断进步。 因此,用一种非常不严谨,但普通人或许也能够理解的方式来说,InstructGPT 先是让一个「口无遮拦」的 GPT 通过「默写人类的优秀范文」的方式初步学会「好好说话」,然后再「给它独自写出来的东西打个分,让它回去好好领悟,继续进步」。当然,在技术上牵涉事情会更复杂一些,比如「优秀范文」的具体规范和数量等数据上的问题,以及强化学习中打分模型的选择,算法参数的设置等算法上的问题,都会对最后的效果产生影响。但最终的结果表明,这种方式是非常有效的,论文中也指出一个通过上述方式训练出来的 13 亿的小模型,效果就能够超过没有经过这种训练的更大的模型。 另外论文中还有一些非常值得一提的内容。首先是关于 Prompt 的一些发现。InstructGPT 训练时所使用的 Prompt 主要由两部分构成,一部分是专门的 AI 训练师编写的,另一部分自来 OpenAI 的模型在线服务期间,由用户使用中编写的内容,这时数据飞轮的作用就体现了。可以发现,无论是哪种,这些 Prompt 都是由真人写出来的,虽然文章中没有对这些 Prompt 的具体涵盖范围、分布情况以及提问的方式展开详细的分析,但可以合理地猜测这些 Prompt 具有一定的多样性和较高的质量。其实文章中对比了使用这些真人编写的 Prompt 训练的模型和使用一些开源 NLP 任务数据集中构建的 Prompt(例如 T0 数据集、FLAN 数据集)训练出来的模型,结论是由真人编写 Prompt 训练出来的模型,给出的答案更加能被评测的人接受。 另外一点是关于训练好的模型对新的 Prompt 的泛化能力的问题,可想而知的是,如果训练完成的模型无法产生 Prompt 的泛化能力,那么现在 ChatGPT 所表现出来的,几乎百问百答的能力是不太可能产生的。因为在模型做微调的阶段,即便是再多的数据,也不可能把人们有可能会输入的内容都覆盖完整。而 InstrctGPT 论文中点明了文中所采用的方法是可以产生 Prompt 的泛化能力的。 之所以花了更多的文字对 InstructGPT 做介绍,因为根据 ChatGPT 官方页面的介绍,InstructGPT 中的方法正是用来训练 ChatGPT 的方法,不同的只是 ChatGPT 使用了对话式的数据组织方式。 GPT-3.5 时代和 ChatGPT 的诞生 在随后的时间内,OpenAI 发布了多个被称为 GPT-3.5 系列的模型,虽然这些模型并未有相关的论文跟随发表,但根据这篇文章的分析,GPT-3.5 系列应该是融合了 OpenAI 在 GPT-3 时代积累的技术、数据以及经验开发出来的。由于没有详细的官方公开信息参考,关于这些模型的具体资料,外界主要是通过分析使用的体验、相关的技术论文以及 OpenAI 的 API 文档介绍来进行推测。 根据分析,GPT-3.5 系列的模型有可能并不是在 GPT-3 上继续微调而来,而很可能是将代码和自然语言的数据融合在一起,重新从零开始训练了一个基础模型。这个模型可能比 GPT-3 的 1750 亿参数量更大,它在 OpenAI 的 API 中被命名为 codex-davinci-002。然后在这个基础模型上,通过指令微调和人类反馈得到了一系列后续的模型,包括 ChatGPT。 GPT 系列模型的发展路径。 简要地说,从 code-davince-002 这个模型开始,经过有监督的指令微调得到 text-davinci-002。以及后续的 text-davinci-003 和 ChatGPT,也是在 GPT-3.5 系列的某个模型上通过指令微调以及人类强化学习反馈得到的。并且 text-davinci-003 和 ChatGPT 都是在 2022 年 11 月发布的,不同的是 text-davinci-003 和 GPT-3 一样,是一个文本补全模型。而根据 ChatGPT 的官方介绍,它是通过将过往的数据处理成对话交互的形式,并增加了新的对话数据训练出来的。 至此,我们大致回顾了 OpenAI GPT 系列模型从 2018 年的初代 GPT 到现在的 ChatGPT,一路发展迭代的过程。在这个过程中,OpenAI 一直保持着对生成式预训练模型这一技术路径的「执拗」,并且也一直从不断发展的 NLP 技术中吸纳新的方法,从最初的 Transformer 模型结构,到后来的指令微调(Prompt tuning)等技术的出现,这些因素共同促成了如今 ChatGPT 的成功。有了对 GPT 系列模型发展的了解,我们可以再回过头来看看如今的 ChatGPT。 3、走近再看 ChatGPT 在第一章节中我们阐述了 ChatGPT 出圈的原因主要是:「它以流畅、符合逻辑的自然语言来反馈人类对它输入的自然语言」,从而给与它交流的人带来了很强的「智能感」。在第二章节中通过回顾 GPT 系列模型的发展历史来了解 ChatGPT 成功之路。而这一章节会尝试以尽可能让圈外人都能理解的方式,稍微深入一些技术的内容,并且探讨一下当前的一些大型文本生成式模型为什么未能做到相同的效果。这一部份的主要参考来自于《深入理解语言模型的突现能力》和《拆解追溯 GPT-3.5 各项能力的起源》这两篇文章以及相关的一些论文,建议希望详细了解细节的读者阅读原文。 虽然在第一章中指出,ChatGPT 所带来的惊艳效果是由许多不同的 NLP 任务综合体现出来的,但在分析它背后的技术时,还是通过将它的能力进行拆解会更加清晰明了一些。总体而言,ChatGPT 所体现出来的能力可以大致划分为以下几个维度: - 文本生成的能力:ChatGPT 的所有输出都是即使生成出来的文本,所以文本生成的能力是它最基本的要求。 这一项能力实际上是来自于它的训练方式,ChatGPT 在预训练时,是一个标准的自回归语言模型任务,这是 OpenAI 所有 GPT 系列模型的基底。所谓的自回归语言模型任务,通俗的理解是这样的:它可以根据已经输入的文本,预测下一个 token 应该是什么。这里所说的 token,所代表的是模型所使用的最小单位的字符片段,它可以是字(在中文里采用字是很常见的),也可以是词(英文的每个词天然地被空格隔开了,所以常采用词),甚至是字母。但现在的方法通常采用的是子词(subword,介于字母和词之间,主要的目的是减少词表数量)。但不论是哪种,自回归语言模型任务的基本思路都是根据已经输入的文本,预测下一个要输出的文本是什么,就像下图的例子中那样: 这个例子中,BOS 代表了输入的开头,而每个 token 是一个词,GPT 模型根据输入的「今天」和 「天气」两个词,预测下一个要输出的是「不错」。 在训练的时候,会准备很多文本数据,比如网页上的文章、各类书籍等等,只要是正常的文字内容,都可以用来训练。值得说明的是,这种数据不需要进行额外的人工标注,因为这类数据本来就是人写的,模型要做的事情就是根据这些人写出的文本,去学习「给定了前面的文字,接着这些文字后面这个地方应该是什么」的问题。这便是业内所称的「无监督训练」,实际上模型并不是真的没有监督(不然模型学什么呢?),只是它的数据不需要额外的人工标注。也正因为这个任务是不需要额外标注的,因此可以「免费」获得大量的数据,得益于互联网的普及,可以「轻松地」获得海量的由真人写出的文本内容用来训练。这一点也是 GPT 系列模型的特点之一,用海量的数据,去训练很大的模型。 那么在我们使用 ChatGPT 的时候,它是怎么工作的呢?其实也和它的训练方式一样,模型会根据我们在对话框里输入的内容,去预测接在这些内容的下一个 token 是什么,得到这个 token 后,会将它与前面的内容拼接成一个新的文本给模型,模型再预测下一个 token,如此反复,直到满足某个条件后停止。这个停止的条件有很多不同的设计方式,比如可以是输出的文本达到特定的长度,又或者是模型预测出某个用来代表停止的特殊 token。另外值得一提的是,模型预测下一个 token 时,其实背地里是一个采样的过程。换句话说,模型在预测 token 时,输出的其实是所有可能出现的 token 的概率,然后从这个概率分布里采样一个 token。因此,在使用 ChatGPT 时,会发现即便对于相同的输入,它的输出每次也会不一样,因为在背地里它采样了不一样的 token 作为输出。 了解这些之后,可以再回过头来思考一下模型在学什么。它在学习怎么回答问答吗?又或者说它在学习怎么理解自然语言所蕴含的信息、逻辑、情感?还是说它在学习海量的知识?从训练任务的设计来看,似乎都没有,它只是从海量的文本数据里,学习了「根据输入的这些文本,一个人类在后面会接着写什么」这件事。但正是这样的模型,在「进化」到 ChatGPT 时,它却掌握了丰富的知识、复杂的逻辑推理等等,它似乎掌握了一个人类运用语言所需要的几乎所有的能力。这是一件非常神奇的事情,它的「进化」历程将会在下一章节中做更加深入的介绍。 - 丰富的知识储备:ChatGPT 能够正确回答非常多的问题,包括历史、文学、数学、物理、编程等等。因为目前版本的 ChatGPT 并没有利用外部知识,因此这些知识的内容是「储存」在模型内部的。 ChatGPT 所拥有的丰富知识储备,来自于它的训练数据,以及它足够大的体量,以便学会这些内容。虽然官方并没有公开 ChatGPT 所使用的训练数据的具体细节,但从它的前身 GPT-3 的论文可以推测,这些数据大致可以分为三个大的范畴:网页内容、书籍内容以及百科内容。可想而知的是,这些内容天然地蕴含了大量的知识,百科和书籍自然不必说,而网页内容也包含了许多新闻、评论、观点等,并且网页也包括了很多专门的问答垂直类网站,这些都是 ChatGPT 的知识来源。在官方的介绍里指出 ChatGPT 无法回答 2021 年以后发生的事情,因此合理的猜测是训练的数据收集截止到 2021 年。 但数据量只是其中一个方面,要让模型「掌握」这些数据,其自身的体量是不可能小的。以 GPT-3 为例,它有 1750 亿参数,可以粗浅地理解为,这些数据的内容以及模型的各项能力,都以这一个个参数的具体数值的形式,固定在了训练完成的模型中。感性的理解是,假设一个模型只有 1 个参数,那它什么也干不了。更严谨的分析和对比可以参考这篇论文《Holistic Evaluation of Language Models》的测评,方向性的结论是越大的模型,在需要知识来完成的任务上表现得越好。论文地址:https://arxiv.org/pdf/2211.09110.pdf - 逻辑推理与思维链的能力:从第一章图片中的鸡兔同笼的例子可以看出,ChatGPT 具有很强的逻辑推理能力。并且它能够将复杂的内容,通过拆解,分成多个小的步骤,一步步地进行推理,获得最后的答案,这种能力被称为思维链。 从前面的介绍我们知道,模型在训练的时候并没有针对逻辑推理以及思维链做特定的设计。而当前的主流观点认为,逻辑推理和思维链很可能和两个因素相关,第一个是模型的体量,第二个是模型是否在代码数据上进行过训练。 关于模型体量与推理、思维链能力的关系,在《深入理解语言模型的突现能力》中有对应的介绍。下面这张图展示了思维链能力与模型体量的关系。 不同模型不同尺寸的思维链效果对比,图来自论文。GSM8K,SVAMP 和 MAWPS 是三个需要逻辑推理的数学应用题数据集,LaMDA,GPT 和 PaLM 分别是 3 个不同的模型。 简要地说,图表中给出了三个不同的模型,在三个数学应用题数据集上的答对率。而值得关注的是以下几个方面: 思维链的能力(蓝色实线)在模型体量够大的时候产生了效果上的突变; 思维链的能力在模型够大的前提下,效果超过了标准的指令(Standard prompting,黑色实线)方法; 思维链的能力在模型够大的情况下,可以接近甚至超过有监督的方法(橙色虚线)。 用通俗的话来说,就是在模型足够大的时候,思维链的能力突然展现了出来,能够达到、甚至超过那些在推理数据集上专门进行有监督训练的模型。这个图也许部分解释了现在我们看到的 ChatGPT 所具有的优异推理和思维链能力。 而另一个关于推理以及思维链能力的产生因素,与模型是否在代码数据上做过训练有关。目前这一点只是一个推论,《拆解追溯 GPT-3.5 各项能力的起源》中的分析表明体量类似的大型模型,没有在代码上做过训练的话,只有很弱或几乎没有思维链和推理能力。而 ChatGPT 确实是在代码数据上进行过训练的,这一点从它能够理解并生成代码也可以看出来。在第二章回顾发展历程中提到了,OpenAI 在 2021 年就发布了专门针对代码的 CodeX 模型,将代码数据加入 GPT 的训练数据应该就是从那时开始的。 - 按照人的提问或者指令给予回复的能力:ChatGPT 除了可以用狭义的基于「问答」形式的交互以外,还能够按照输入的要求进行回复。例如,在应对「帮我写一封信」这类指令式的要求时,它同样也展现出了优秀的能力。这种能力让它不仅是一个提供答案的「高级搜索引擎」,更是一种可以用自然语言来交互的文字处理工具。 虽然目前大众普遍把目光聚焦在将 ChatGPT 作为一种类搜索引擎的工具,但查阅相关知识并给予回答并不是它的唯一能力。实际上,单就 ChatGPT 本身而言,回答知识性的问题并不是它的强项,毕竟它本身的训练数据被定格在了 2021 年。即便用更新的数据去训练,但它终究跟不上时事的变化,因此要将它用作知识性的问答工具,还是需要与搜索引擎等外部知识源做结合,就像现在 Bing 做的一样。 但换一个角度来看,ChatGPT 像是一个「语言完备」的文本工具,也就是它能够按照你给它的要求,完成指定的、可以用文本形式表达出来的内容,就像下面这个例子。 按照给定的计划内容生成英文邮件进行汇报。 这里所说的「语言完备」,指的是运用语言的能力。可以看出上面这个例子里,其实不涉及知识性的内容,因为需要它写的内容已经提供给它了。但要写出这封邮件,涉及到的是运用语言的能力,比如遣词造句、语种切换、邮件格式等等。 现在我们回过头来,尝试分析它的这种「按照指令完成任务」的能力是怎么获得的。在学界中,这种指令被称为 prompt,实际上对话中的用户输入、问答中的问题也是一种 prompt,因此可以粗浅地理解为,在聊天框里输入的所有内容都是 prompt。如果了解我们在本章第一节介绍语言模型的内容,那么更严谨一些的说法应该是「输入给模型的上文」都是 prompt。 ChatGPT 根据输入的指令(prompt)进行回复的能力,是来自于一种被称为指令微调的模型训练方式(prompt tuning)。其实原理很简单,模型依然还是「根据输入的内容,预测下一个 token 是什么」,只是在指令微调的阶段,输入的内容被换成了这些事先写好的 prompt,而 prompt 后面需要生成的内容,则是事先写好的答案。因此在这一阶段和一开始所说的无监督自回归语言模型训练,最大的不同在于数据。这里的数据,也就是 prompt 以及对应的回复,都是人写的,换句话说,这一阶段用的是人工标注的数据进行的监督训练。 提到人工标注的数据,就自然牵涉到了所需要的数据量了,因为每一条标注数据都是需要成本的。如果是不需要标注(就像第一阶段的训练),那么自然有海量的文本数据可供训练,但如果要标注,那到底需要多少这种数据呢?要知道,让标注人员手写一个 prompt,然后再手写一个几百字的、真实详尽的回答,成本是很高的。根据论文《Training language models to follow instructions with human feedback》的介绍,所需要的数据其实不需要太多(相比于无监督阶段所使用的数据来说)。虽然具体到 ChatGPT 到底使用了多少没有确切的信息公开,但可以确定的是在数量级上一定远比用来进行无监督训练的网页、百科和书籍所构成的数据集要小非常多。 论文地址:https://arxiv.org/pdf/2203.02155.pdf 只需要相对少量的人工标注的 prompt 数据就能达到让模型按照指令做出回复的目的,这一点背后其实隐含了一个现象,在学界内被称为 prompt 的泛化能力。可以想象一下,如今全世界都在不停的向 ChatGPT 提问,所提的问题也必定是千奇百怪的,这些问题其实就是一个个的 prompt。但用来对 ChatGPT 进行指令微调的 prompt 肯定不会有这么多,这说明模型在学习到了一定量的 prompt 和相应的答案以后,它能够「举一反三」地对它没有见过的 prompt 进行回答,这就是 prompt 的泛化能力。文章《拆解追溯 GPT-3.5 各项能力的起源》分析指出,这种泛化能力与在指令微调阶段让模型学习的标注数据数量以及多样性相关。 此外,用少量的 prompt 数据就能微调出类似于 ChatGPT 这样拥有强大能力的模型,背后还隐含了另一个猜测,即模型所表现出来的各项能力,可能在无监督训练的阶段就已经存在于模型当中了。其实这也很好理解,毕竟相比于无监督的数据,这些人工标注的 prompt 数量太少了,很难想象模型是通过对这些仅有的标注数据学习而产生了各种各样的能力。从这个角度来说,指令微调的过程更多只是让模型学会按一定的规范来进行回复,而它的知识、逻辑等能力是早已存在的。 - 「客观公正」的能力:如果对 ChatGPT 询问一些有害或者有争议的问题,可以看到 ChatGPT 的回答都是非常「小心」的,很像是经过训练的新闻发言人般的回答。虽然它目前依然做得不够好,但这种能力是 OpenAI 敢将它公开作为一款产品使用的核心因素。 让模型的输出符合人类的价值观是 OpenAI 一直在做的事情。早在 2020 年 GPT-3 的时候,OpenAI 就发现这种通过网上的数据训练出来的模型,会生成带有歧视、危险、争议的内容。作为一个对外提供服务的产品,这些有害的内容显然是不合适的。而现在的 ChatGPT 在这一点上有着明显的改善,让模型做出这种「行为改变」的主要方法也来自于 InstructGPT 的论文,更确切地说,是通过有监督的指令微调加上人类反馈的强化学习共同完成的,这一点在第二章中也已经做过介绍了。 通过上述的分析可以发现,从技术方法的角度来说,ChatGPT 相关的内容都是已知的,但为什么当前只有它拥有如此惊艳的表现呢。实际上从 ChatGPT 推出之后,NLP 社区就一直在分析这其中的原因,虽然很多结论是推测性的,但也为同类模型的国产化带来一些启示。 模型体量的因素 能力涌现出现的前提是模型体量达到一定的规模,虽然没有具体的指标指引,但从目前的事实情况来看,类似于思维链等比较「高级」的能力,需要在数百亿参数量以上的模型中才表现得足够优异。 数据量的因素 模型的大小不是唯一的因素。DeepMind 在这篇论文《Training Compute-Optimal Large Language Models》提供了一些分析性的结论,指出训练的数据量需要随着模型的体量相应地增加,更确切地说,是模型训练时「见过的 token」数量,需要随着模型体量增加。 论文地址:https://arxiv.org/pdf/2203.15556.pdf 数据质量的因素 对于无监督的数据,数据量相对而言并不是很大的障碍,但数据质量往往更加容易被忽视。实际上在 GPT-3 的论文中,就有专门的内容介绍数据的处理工作。为了清洗 GPT-3 的训练数据,OpenAI 专门训练了一个数据过滤模型,来从海量的网页数据中获取更高质量的数据。相比而言,与 GPT-3 体量相当的一些开源模型,例如 Meta 的 Opt 和 BigScience 的 Bloom,似乎没有进行这一步清洗。这也许是这两个开源模型效果劣于 GPT-3 的原因之一。 此外,数据质量的衡量维度不是单一的,诸如数据的多样性、内容重复度以及数据的分布情况都是需要考虑的因素。例如虽然 GPT-3 所使用的网页、百科、书籍这三大类数据中,网页数据的总量是最多的,但在训练时这三类数据的采样并不是按照实际数据的多寡进行的。 另外值得一提的是,在指令微调的阶段,采用人工编写指令也许是一个重要的影响因素。InstructGPT 的论文明确指出在测评过程中,采用人工编写的指令训练出来的模型,比采用现有的 NLP 数据集通过模版的方式构建指令训练出来的模型有更好的效果。这也许解释了在 T0、FLAN 等由 NLP 数据集构成的指令数据集训练出来的模型为什么效果会差一些。 训练过程的影响 这类巨型模型在训练时通过集群进行训练,同时采用数据并行、模型并行以及 ZeRO 优化器(一种降低训练过程显存占用的方法),这些方式为训练的稳定性引入了更多的变量。如下这篇分析指出甚至模型是否采用 bfloat16 精度都对结果有明显的影响。 分析链接:https://jingfengyang.github.io/gpt 相信了解了上面的这些内容,大家对复刻一个类 ChatGPT 的方式以及会面临的问题会有一个大致的了解。有幸的是 OpenAI 已经证明了这技术路径是能够走通的,ChatGPT 的出现也确实正在改变 NLP 技术的发展走向。 4、未来的展望 ChatGPT 从 2022 年 11 月上线以来,引起了极大的关注。相信即便是非专业领域,甚至是与计算机也很少打交道的群体,或多或少地都知道它的存在,这个现象本身就已经反映出它的出现有些不同寻常。圈外的大众更多的是以好奇、惊讶或者惊叹的方式来感性地认识它的出现。而对从业者来说,它的出现更多的是对未来技术走向的思考。 从技术的角度来说,ChatGPT 的出现标志着 NLP 领域的又一次范式切换。之所以说是「又」一次,是因为在 2018 年,也就是初代 GPT 发布的那一年,与之同年发布的 BERT 模型以自身优异的表现,开创了 NLP 的「预训练 + 微调」范式的时代,具体内容在第二章中已经做过介绍了。这里主要介绍由 ChatGPT 开启的「文本生成 + 指令」的范式。具体来说,就是利用训练好的 ChatGPT 或类似的文本生成模型,通过输入适当的指令(prompt)来完成某一项具体的场景。 这种范式与此前的 NLP 技术应用有很大的不同。不论是早期的利用 LDA、RNN 等统计模型或很小的
深度
学习
模型的时代,还是后来利用 BERT 等预训练配合微调的时代,技术所提供的能力是相对原子化的,距离实际的应用场景有一定的距离。 就拿前面举的让 ChatGPT 根据要求写英文邮件的例子,按照此前的做法,可能需要先抽取实体、事件等内容(比如时间、地点、事件等),然后通过模版或是模型形成邮件的样式,再通过一个翻译模型转化为英文。当然如果数据量足够训练端到端模型的情况下,也可以跳过中间的若干步骤。但不论采用哪种方式,要么需要将最终的场景拆解成原子化的 NLP 任务,要么需要对应的标注数据。而对于 ChatGPT 来说,只需要一个合适的指令。 三个阶段的 NLP 技术范式。 这种生成式模型搭配 prompt 的方式,直接略过了中间的各项 NLP 能力组件,用最直接的方式解决应用场景的问题。在这种范式下,完成终端应用的技术路径将不再是用单点 NLP 能力模块通过搭积木的方式组合起来。 当然,这个过程不是一蹴而就的,也不意味着 NLP 的单点能力变得不重要。从测评的角度来说,每一个单点能力的好坏依然可作为评价模型效果的指标。并且,就某些场景来说单点能力依旧是一个强需求。例如在订票系统中本身就需要针对时间、地点进行提取。但与此前不同的是,ChatGPT 本身也可以完成单点能力,而不需要使用额外的功能模块。 ChatGPT 进行信息提取。 ChatGPT 进行情感判断。 从这个角度来说,可以把 ChatGPT 看作是一个以自然语言作为交互媒介的 NLP 工具。如果说在过去,我们是通过模型 + 数据 + 设计训练任务的方式来完成某项 NLP 能力,那么 ChatGPT 则是通过设计指令来完成这些能力。 可想而知,ChatGPT 的出现大大降低了 NLP 技术的应用门槛。但它目前还不是全能的。最重要的一点在于它缺乏准确可靠的垂直领域知识,为了让它的回答可靠,最直接的方式是为它提供外部的知识来源,就像微软将 Bing 的搜索结果作为它回答的信息来源那样。 因此,「传统」的 NLP 技术并不会就此完全消亡,而是会以「辅助」的角色,作为目前 ChatGPT 短板的补充,这也许会是未来 NLP 技术应用的新范式。 来源:金色财经
lg
...
金色财经
2023-02-24
易点天下:目前公司的主营业务包括效果广告服务、品牌广告服务以及头部媒体账户管理服务
go
lg
...
投放、自动化运营投放等关键业务场景中,
深度
学习
及人工智能算法、边缘计算技术等核心技术被广泛应用,提升了互联网广告投放的效率以及准确性。同时,公司自主研发了一系列智能化业务系统平台,以由数据驱动的自动化的投放模式逐渐替代了基于广告运营人员主观经验判断的粗放式决策模式,进一步优化了投放流程、提升了公司整体营运效率。谢谢! 投资者:公司有哪些产品和技术用于富媒体? 易点天下董秘:您好,目前公司的主营业务包括效果广告服务、品牌广告服务以及头部媒体账户管理服务。公司为客户提供广告投放服务,覆盖媒体类型包括线上新媒体广告,例如网站内广告、移动应用内广告、社交媒体广告等。谢谢! 易点天下2022三季报显示,公司主营收入18.68亿元,同比下降24.6%;归母净利润2.5亿元,同比上升26.17%;扣非净利润2.38亿元,其中2022年第三季度,公司单季度主营收入5.54亿元,同比下降35.42%;单季度归母净利润7215.86万元,同比下降1.21%;单季度扣非净利润6965.9万元,负债率38.29%,投资收益1184.34万元,财务费用-7138.06万元,毛利率22.14%。 该股最近90天内共有3家机构给出评级,买入评级3家;过去90天内机构目标均价为22.43。近3个月融资净流入8932.39万,融资余额增加;融券净流入0.0,融券余额增加。根据近五年财报数据,证券之星估值分析工具显示,易点天下(301171)行业内竞争力的护城河一般,盈利能力一般,营收成长性一般。财务相对健康,须关注的财务指标包括:应收账款/利润率。该股好公司指标3星,好价格指标2星,综合指标2.5星。(指标仅供参考,指标范围:0 ~ 5星,最高5星) 易点天下(301171)主营业务:效果广告服务和头部媒体账户管理服务 以上内容由证券之星根据公开信息整理,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。
lg
...
证券之星
2023-02-24
AI新时代 是时候重估百度了
go
lg
...
直接支撑文心大模型的平台,是飞桨产业级
深度
学习
框架。这是目前被广泛使用的
深度
学习
框架。截至 2022 年 11 月底,飞桨平台上已凝聚 535 万开发者、创建 67 万个 AI 模型,服务 20 万家企事业单位,位列中国
深度
学习
平台市场综合份额第一。在百度 AI 能力的整体架构中,
深度
学习
框架位于第二层,整体的四层能力包括「底层芯片 +
深度
学习
框架 + 大模型 + 应用层」。 去年底,百度发布了最新的生成式 AI 产品「文心一言」,这是应用层的最新产品,目前已经被不少新媒体用来生产配图素材。这是一个 AI 作画平台,由飞桨学习框架和文心大模型提供技术支持。百度集团副总裁、
深度
学习
技术及应用国家工程研究中心副主任吴甜介绍,百度将文心大模型已经形成「模型层 + 工具与平台层 + 产品与社区层」的整体布局。 「文心一格」产品的发布,意味着百度已经开始积累大模型的工程化落地能力,而接下来「文心一言」产品的发布,将沿着这一方向进行更多探索。 「文心一言」融入更多业务
深度
学习
三巨头之一的 LeCun 表示,新的 AI 热潮,将带来企业内部
深度
学习
研发的复兴。对于百度来说正是如此。与学术性质的研发不同,在企业中的技术研发,不仅仅涉及概念验证,还因探索与业务场景结合、规模化而需要更大成本。 如微软总裁纳拉德所说,AI 将从根本上改变每一个软件类别。如今,正来到了探索大模型与更多业务场景结合、赋能产品的加速时期。百度也已经公布了相关规划。 三月份即将发布的「文心一言」(ERNIE Bot)是基于文心大模型所发布的新的语意理解平台。从英文名 Bot 可以看出,底层的技术将是一个类似聊天机器人(Chatbot)的对话模型。「文心一言」将会利用跨模态、语言理解和生成能力等,为人们提供自然流畅的聊天体验。 对于百度来说,拥有了这样的新技术平台,首先能够提升的便是搜索产品。目前,搜索产品的收入大约占到百度整体收入的 60%,依旧是最重要的产品之一。 多年来,搜索产品的形态和用户体验没有太大的变化。当对话体验与原有的搜索引擎形成互补,用户在搜索相关链接的同时,也能够直接阅读定向生成的内容,将是十多年来搜索产品最显著的一次产品变革。这也将成为互联网的新流量入口。 这种对话能力,还能够接入智能座舱的场景中,以语音交互的形式体现。前不久的三里屯体验中心启动会上,集度汽车 CEO 夏一平表示,「集度将融合百度文心一言的全面能力,支持汽车机器人实现自然交流的再进阶。」当新的模型能力接入汽车终端,人们在座舱内不仅能够通过语音对设备进行更全面的控制,还能够获得类似于和一个「人」交流对话的体验。 除了 C 端产品之外,模型能力也将接入百度的智能云中,为 B 端服务能力带来提升。百度集团执行副总裁、百度智能云事业群总裁沈抖表示,「文心一言」将通过百度智能云对外提供服务,率先在内容和信息相关的行业和场景落地。 将大模型的能力引入云服务,将是必然的趋势。微软此前已经表示,计划将 OpenAI 的多项技术引入 Azure 云服务中,包括 ChatGPT 以及绘画模型 DALL-E。将来,通过云服务的方式,AI 改写软件的进程才会真正发生。 百度智能云宣布,将在 5 月推出针对「文心一言」模型的 API 接口。这将使百度智能云在语音合成、机器翻译、自然语言处理方面的服务能力提升,客户可以直接调用相关能力应用到具体的场景里。 去年百度智能云年增长为 12%,在 AI 云市场位列第一。具体而言,在数字人、智慧城市等领域,百度智能云为市场份额第一。百度搜索业务之外的其它业务,主要受智能云及其他 AI 驱动业务的推动。大模型能力的接入,将带来更强的增长势能,也将拓展 AI 云的服务范围。 来源:金色财经
lg
...
金色财经
2023-02-24
证通电子:公司目前暂无相关业务规划
go
lg
...
力和产品应用场景,积累了丰富的场景化的
深度
学习
、图像分析技术、自然语言处理、语音识别等人工智能技术和模型,为行业提供人工智能综合应用解决方案。感谢您对公司的关注与支持! 投资者:请问一下贵公司有参与金融支持横琴粤澳深度合作区建设么? 证通电子董秘:尊敬的投资者您好!公司暂未参与横琴粤澳深度合作区建设。公司将密切关注相关行业政策,积极把握市场机会,推动公司主业做强做精。感谢您对公司的关注与支持! 证通电子2022三季报显示,公司主营收入8.28亿元,同比上升5.18%;归母净利润1070.53万元,同比下降45.95%;扣非净利润-722.54万元,同比下降18.19%;其中2022年第三季度,公司单季度主营收入2.61亿元,同比上升0.06%;单季度归母净利润-792.72万元,同比下降368.6%;单季度扣非净利润-1625.45万元,同比下降99.68%;负债率53.99%,投资收益199.01万元,财务费用5229.96万元,毛利率33.34%。 该股最近90天内无机构评级。近3个月融资净流入5563.11万,融资余额增加;融券净流入3310.62万,融券余额增加。根据近五年财报数据,证券之星估值分析工具显示,证通电子(002197)行业内竞争力的护城河良好,盈利能力一般,营收成长性较差。财务可能有隐忧,须重点关注的财务指标包括:货币资金/总资产率、有息资产负债率、应收账款/利润率。该股好公司指标2星,好价格指标1星,综合指标1.5星。(指标仅供参考,指标范围:0 ~ 5星,最高5星) 证通电子(002197)主营业务:公司是一家业务涉及IDC及云计算、金融科技等领域的现代化高科技企业,明确提出了“IDC基础设施、云计算和智能终端为特色的数字化服务提供商”的战略定位,具备为客户提供集研发、生产、销售、服务等一体化综合解决方案的能力 以上内容由证券之星根据公开信息整理,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。
lg
...
证券之星
2023-02-24
上一页
1
•••
96
97
98
99
100
•••
109
下一页
24小时热点
“西方客户感到震惊”!美媒:这是中国国家主席习近平向特朗普发出的警告
lg
...
特朗普大消息!贸易战将重大升级:特朗普宣布将采取影响“所有人”的关税措施
lg
...
事关马斯克、俄乌冲突!特朗普突传2个市场重大行动……
lg
...
突发消息!特朗普宣布“解雇”拜登 撤销安全许可、终止接收机密情报信息
lg
...
中美突传激进法案!美国拟下载DeepSeek面临最高20年监禁、1亿美元罚款
lg
...
最新话题
更多
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
19讨论
#链上风云#
lg
...
59讨论
#VIP会员尊享#
lg
...
1719讨论
#比特币最新消息#
lg
...
861讨论
#CES 2025国际消费电子展#
lg
...
21讨论