FX168财经网_全球视野外汇黄金加密货币NFT资讯网

AIGC带动影响板块走强，华策影视、奥飞娱乐涨超7%，影视ETF（516620）涨超3%

源证券认为，AIGC从文字、图片生成到视频生成的技术进步路线，长期来看或大大助力影视拍摄制作降本增效，拥有版权、视频素材及数据优势的影视公司或助力AI大模型训练，并衍生新的商业模式。建议密切关注直播带货及AIGC对影视公司新商业模式及降本增效的作用，及带来的影视板块价值重估机会。（来源:界面AI）声明：本条内容由界面AI生成并授权使用，内容仅供参考，不构成投资建议。AI技术战略支持为有连云。

有连云2023-03-17

李彦宏：百度文心一言"十月怀胎"终于"一朝分娩" 文心一言大模型将带来三大产业机会

源、媒体等）、应用开发（文字、图像、音视频生成、数字人、3D生成等）。　　百度CEO李彦宏称“文心一言”是百度公司10年心血的产物，没有哪家公司能在几个月内生产出这样的产品。

金融界2023-03-16

李彦宏展示文心一言五个使用场景：无论哪家公司都不可能靠突击几个月做出这样的大语言模型

至能够生成四川话等方言语音；文心一言的视频生成能力则因成本较高，现阶段还未对所有用户开放，未来会逐步接入。　　“多模态是生成式AI一个明确的发展趋势。”李彦宏表示，“未来，随着百度多模态统一大模型的能力增强，文心一言的多模态生成能力也会不断提升。” 　　据了解，目前百度是全球大厂中第一个做出对标ChatGPT产品的企业。李彦宏指出：“无论是哪家公司，都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理，需要多年的坚持和积累，没法速成。”

金融界2023-03-16

OpenAI推出GPT-4！可以解析文本和图像输入券商：商业化应用将进一步加速，背后有四大投资新路径

码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为，前述基础能力将支撑GPT系列模型在通用与垂直领域的应用，典型应用场景如：通用领域—搜索引擎/办公软件，垂直领域—教育/金融/医疗/图像视频等。　　3、通用与垂直场景多点开花，GPT变革内容生成与交互方式　　GPT有望革新各行各业的内容生成与交互方式。基于GPT+文本&代码&对话&翻译&图像&视频，我们看好GPT类技术未来在通用与垂直场景的应用空间。例如，搜索引擎结合GPT将重塑搜索结果呈现方式，多模态的引入带来一站式的文本、图像、视频汇集结果，将大为提升用户信息收集效率。　　中金公司机构以下四大环节有望迎来新机遇：　　（1）算力方面，ChatGPT训练所耗费的算力大约为3640 PF-days，即假设每秒运算一千万亿次，需要连续运行3640天，训练大模型需要强大的算力。人工智能的跨越式发展将成为算力流量消耗的重要驱动力，未来数据中心和相关的配套产业有望实现更好增长。其中，数据中心建设有四大重点方向：　　①第三方IDC运营环节：宝信软件、数据港（与阿里合作）、科华恒盛（与腾讯合作）、奥飞数据、美利云、光环新网、铜牛信息等。　　②储能温控环节：英维克（互联网IDC空调龙头）、佳力图（绑定中国移动）、高澜股份、依米康、申菱环境、朗进科技、科华数据、润泽科技等。　　③传输网设备、光纤光缆、光模块等ICT环节：光模块领域的新易盛、中际旭创、博创科技；光器件领域的天孚通信、腾景科技、光库科技；光纤光缆领域的中天科技、亨通光电等。　　④高性能计算芯片板块：澜起科技、国芯科技、聚辰股份、兆易创新、景嘉微、寒武纪、芯原股份等。　　（2）数据标注方面，ChatGPT的训练过程加大了人工标注的力度和精度，这代表着在未来的人工智能领域，优质的数据源和强大的标注能力，将成为行业的基础设施。　　（3）NLP（自然语言处理）方面，安信证券表示，由于ChatGPT主要基于自然语言处理，因此在NLP领域沉淀较多的企业，有望率先实现功能的部分复现，NLP头部厂商将率先受益。　　（4）AIGC（人工智能生成内容）方面，ChatGPT是AIGC应用的又一个起点，随着深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能，AIGC有望加速发展。

金融界2023-03-15

ChatGPT正在迎接一个繁荣的开发者市场

hrome浏览器插件，给YouTube视频生成带有时间戳的摘要，适合对话/访谈/演讲类的视频，基于文本识别和热度判断来帮你划重点，免费版每周只5个额度，超出需要付费。平替版的还有Glarity（glarity.app），不仅支持YouTube，还支持Google和Yahoo，但总结得会更简略一些。面向Bilibili的同类服务有BilibiliSummary（GitHub）BibiGPT（b.jimmylv.cn），只是稳定性都不太好。 Mem（mem.ai） OpenAI领投的知识库工具，比Notion要轻，把它当成一个每日信息摄入的保存盒子，扔进来之后由AI咀嚼整理，生成新的简报给我。 Notion AI当然更强大一些，但是Notion更适合再往后一步的沉淀，在收进Notion之前我需要中转站来做进一步的精简处理。 HARPA（harpa.ai） Chrome浏览器插件，除了随时调用ChatGPT来对当前页面进行总结之外，还整合进去了很多自动化功能，比如你可以让它跟踪一家网店的商品价格，降价到了你设置的数字之后之后第一时间通知你。因为功能种类很多，所以用起来可能会繁琐一些，前期需要不断的调教，或者干脆放弃多余的选项，只用它的页面感知能力，超乎想像的全能。 AI Dungeon（play.aidungeon.io） MUD地牢游戏，可以无限生成龙与地下城式的游戏内容，很适合消遣和猎奇，用的好像是GPT-3模型，对中文的支持度非常高，对话起来你说中文它出英文完全没有任何障碍。这完全脱离了RPG游戏的任务线，你可以天马行空的推进剧情，最后通关或者失败，好的剧本会被分享出来让其他用户进去重开游戏，然后又产生新的支线。我玩了一个多星期了，感觉略微看到了游戏产业在未来的一种可能性。结语从外网的情况来看，现在每天都有几十个基于OpenAI的新产品上线，互联网行业很久没有出现如此让人兴奋的画面了。这里面有些是套壳应用，就是针对一个具体需求写了前端，比如用户输入需求然后它给你推荐3本书这种，只是对ChatGPT能力做了简单的连接，价值有限。稍微复杂一点的，我看到有专门服务于特定场景，比如很多人用Tinder搭讪妹子不知道怎么聊天，然后它可以提供500多种开场白，一步一步帮你跟妹子聊天。最受欢迎的市场在企业端，因为付费意愿最高，所以大量的产品都是文案生成、话术优化、客服对接这些，也有游戏开发者分享了一套完整流程，从用ChatGPT提出要求，到Midjourney绘制素材，最后存入Figma，丝滑得不可思议。更多让人觉得牛逼的想法都还在测试，比如想用LLM模型来给金融市场做定向量化分析的，让零基础的用户直接就能下指令编写程序的，给AI喂完古往今来所有学术论文然后让它成为大学专用搜索引擎的，每一个都对未来影响深远。最可怕的是，OpenAI和它的ChatGPT，也只是这波AIGC浪潮里的浪花之一而已，而AIGC又只是整个AI生态里的一条支流，总感觉在我们的有生之年，还有机会经历一场从工业到生活的彻底改变。这是特斯拉才刚刚做出交流电系统的前夜。来源：金色财经

金色财经2023-03-09

影视院线板块上行，上海电影领涨，影视ETF（516620）上涨1.43%

模型参数和数据训练量的提升，AIGC在视频生成方面或迎来突破，长期来看有望大幅提升影视内容供给量及创作效率。（来源:界面AI）声明：本条内容由界面AI生成并授权使用，内容仅供参考，不构成投资建议。AI技术战略支持为有连云。

有连云2023-03-08

万字圆桌实录：ChatGPT背后的AIGC 将生成怎样的浪潮？

金色财经2023-02-24

OpenAI与AIGC：改变人类生产范式通往“万物的摩尔定律”

为设计灵感和素材的来源。同时 3D 和视频生成领域的大模型也在飞速突破的过程中，未来很可能会在游戏原画、影视特效、文物修复等领域发挥作用。从神经网络的角度看，当前的大模型 GPT-3 有 1750 亿参数，人类大脑有约 100 万亿神经元，约 100 个神经元会组成一个皮质柱，类似于一个小的黑盒神经网络模块，数量级上的差异决定了算力进步可以发展的空间还很大。与此同时，今天训练 1750 亿参数的 GPT-3 的成本大概在 450 万美元左右，根据成本每年降低约 60% 的水平，供大模型提升计算复杂度的空间还很多。 OpenAI CEO、YC 前主席 Sam Altman 的图景中，AI 大模型发展的最终目标是 AGI（通用人工智能，Artificial General Intelligence），当这一目标实现的时候，人类经济社会将实现”万物的摩尔定律“，即万物的智能成本无限降低，人类的生产力与创造力得到解放。归纳并演绎生成式 AI 是什么 AI 模型大致可以分为两类：决策式 AI 与生成式 AI。根据机器学习教科书，决策式模型 (Discriminant Model)学习数据中的条件概率分布；生成式模型 (Generative Model)学习数据中的联合概率分布，两者的区别在于擅长解决问题的方式不同：决策式 AI 擅长的是基于历史预估当下，有两大类主要的模型应用，一类是辅助决策，常用在推荐系统和风控系统中；第二类是决策智能体，常用于自动驾驶和机器人领域。生成式 AI 擅长的是归纳后演绎创造，基于历史进行缝合式创作、模仿式创新——成为创作者飞船的大副。所谓 AIGC（AI Generated Content），便是使用生成式AI主导/辅助创作的艺术作品。不过在10年代的机器学习教科书中，早已就有了这两类AI。为何 AIGC 在20年代初有了显著突破呢？答案是大模型的突破。 The Bitter Lesson大模型助 AIGC 进化时间倒回到 19 年 3 月，强化学习之父 Richard Sutton 发布了名为 The Bitter Lesson（苦涩的教训）的博客，其中提到：”短期内要使AI能力有所进步，研究者应寻求在模型中利用人类先验知识；但之于AI的发展，唯一的关键点是对算力资源的充分利用。“ Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 该文章在当时被不少 AI 研究者视为对自己工作的否定，极力辩护。但如果拉长时间线回看，会发现这位泰斗所言不虚：机器学习模型可以从参数量级上分为两类：统计学习模型，如 SVM（支持向量机）、决策树等数学理论完备，算力运用克制的模型；和深度学习模型，以多层神经网络的深度堆叠为结构，来达到高维度暴力逼近似然解的效果，理论上不优雅但能高效的运用算力进行并行计算。神经网络模型在上世纪 90 年代出现，但在 2010 年前，统计学习模型仍是主流；后来得益于 GPU 算力的高速进步，基于神经网络的深度学习模型逐渐成为主流。深度学习充分利用了 GPU 擅长并行计算的能力，基于庞大的数据集、复杂的参数结构一次次实现出惊人的效果，刷新预期。大模型便是深度学习模型参数量达到一定量级，只有大型科技公司才能部署的深度学习模型。 2019年，OpenAI 从非营利组织变为营利性公司，接受微软 10 亿美金注资。这一合作奠定了他们有更多算力资源，并能依仗微软的云基础建设随时将大模型（Foundation Model）发布为商用 api。与此同时，还有第三件事值得关注，大模型 AI 的研究方向出现了转变，从智能决策式 AI 转变为内容生成式 AI：原本主要大模型集中于游戏的智能决策体，如 DeepMind 开发的打败围棋冠军的 AlphaGo、OpenAI 开发的打败 Dota 职业选手的 OpenAI Five。 Transformer 模型（后文将详细介绍）的发布让 OpenAI 嗅到了更适合他们的机会——预训练语言模型。在那之后，他们开始在 AIGC 的方向上开枝散叶：沿着 2018 年时低调发布的 GPT 模型轨迹发布了一系列模型族，一次次刷新文本生成大模型的效果，印证 Sutton 提出的宗旨：充分运用海量算力让模型自由的进行探索和学习。 OpenAI的大模型发展之路 2019年2月：GPT-2 初版发布，1.2 亿参数量 2019年3月：OpenAI LP 成立 2019年7月：微软注资 10 亿美金 2019年11月：GPT-2 最终版发布，15 亿参数量，宣布暂时不开放使用为避免假信息伪造 2020年6月：GPT-3 发布，1750 亿参数量，后续开放 OpenAI API 作为商用 2021年1月：DALL·E 与 CLIP 发布 2021年10月：OpenAI Codex 发布，为 GPT-3 为 coding 场景的特化模型、Github Copilot 的上游模型 2022年4月：DALL·E2 发布 1、GPT-3，AI文本生成巅峰之作深度学习兴起于计算机视觉领域的应用，而大模型的发展开始于 NLP 领域。在数据、算力充分发展的过程中，Transformer 模型以 attention 机制高度并行化的结构充分利用算力，成为 NLP 领域预训练模型的标杆。著名的独角兽 Hugging Face 也是从对该模型的复现和开源起家。除了 attention 机制的高效之外，它还有两个重要特点：迁移学习(transfer learning)和自监督学习(self-supervised learning)。顾名思义，迁移学习指在一个极庞大的数据集上充分学习历史上的各类文本，把经验迁移到其他文本上。算法工程师会将第一步训练完成的模型存储下来，称为预训练模型。需要执行具体任务时，基于预训练版本，进行定制化微调(fine-tune)、或展示少许范例(few-shot/zero-shot)。而自监督学习，得从机器学习中的监督学习讲起。前面提到若需要学习一匹马是否在奔跑，需要有一个完整标注好的大数据集。自监督学习不需要，当 AI 拿到一个语料库，可以通过遮住一句话中的某个单词、遮住某句话的下一句话的方式，来模拟一个标注数据集，帮模型理解每个词的上下文语境，找到长文本之间的关联。该方案大幅提高了对数据集的使用效率。谷歌发布的 BERT 是 Transformer 时代的先驱，OpenAI 发布的 GPT-2 以相似的结构、更胜一筹的算力后来居上。直到2020年6月，OpenAI 发布了 GPT-3，成为该模型族，甚至整个文本生成领域的标杆。 GPT-3 的成功在于量变产生质变：参数比 GPT-2 多了两个数量级（1750亿vs 15亿个参数），它用的最大数据集在处理前容量达到 45TB。如此巨大的模型量级，效果也是史无前例的。给 GPT-3 输入新闻标题”联合卫理公会同意这一历史性分裂“和副标题”反对同性恋婚姻的人将创建自己的教派“，生成了一则以假乱真的新闻，评估人员判断出其为AI生成的准确率仅为 12%。以下是这则新闻的节选：据《华盛顿邮报》报道，经过两天的激烈辩论，联合卫理公会同意了一次历史性的分裂：要么创立新教派，要么”保持神学和社会意义上的保守“。大部分参加五月教会年度会议的代表投票赞成进一步禁止 LGBTQ 神职人员的任命，并制定新的规则”规范“主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划：于2020 年组成一个新教派”基督教卫理公会“。要达到上述效果，成本不容小觑：从公开数据看，训练一个 BERT 模型租用云算力要花约 1.2 万美元，训练 GPT-2 每小时要花费 256 美元，但 OpenAI 并未公布总计时间成本。考虑到 GPT-3 需要的算力是 BERT 的 2000 多倍，预估发布当时的训练成本肯定是千万美元级别，以至于研究者在论文第九页说：我们发现了一个 bug，但没钱再去重新训练模型，就先这么算了吧。 2、背后DALL·E 2，从文本到图片 GPT-3杀青后，OpenAI 把大模型的思路迁移到了图片多模态（multimodal）生成领域，从文本到图片主要有两步：多模态匹配：将 AI 对文本的理解迁移至对图片的理解；图片生成：生成出最符合要求的高质量图片。对于多模态学习模块，OpenAI 在 2021 年推出了 CLIP 模型，该模型以人类的方式浏览图像并总结为文本内容，也可以转置为浏览文本并总结为图像内容（DALL·E 2中的使用方式）。 CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比较简单：在一个图像-文本对数据集上训练一个比对模型，对来自同一样本对的图像和文本产生高相似性得分，而对不匹配的文本和图像产生低相似性分（用当前图像和训练集中的其他对的文本构成不匹配的样本对）。对于内容生成模块，前面探讨了文本领域：10 年代末 NLP 领域生成模型的发展，是 GPT-3 暴力出奇迹的温床。而计算机视觉 CV 领域 10 年代最重要的生成模型是 2014 年发布的生成对抗网络（GAN），红极一时的 DeepFake 便是基于这个模型。GAN的全称是 Generative Adversarial Networks——生成对抗网络，显然”对抗“是其核心精神。注：受博弈论启发，GAN 在训练一个子模型A的同时，训练另一个子模型B来判断它的同僚A生成的是真实图像还是伪造图像，两者在一个极小极大的博弈中不断变强。当A生成足以”骗“过B的图像时，模型认为它比较好地拟合出了真实图像的数据分布，进而用于生成逼真的图像。当然，GAN方法也存在一个问题，博弈均衡点的不稳定性加上深度学习的黑盒特性使其生成。不过 OpenAI 大模型生成图片使用的已不是 GAN 了，而是扩散模型。2021年，生成扩散模型（Diffusion Model）在学界开始受到关注，成为图片生成领域新贵。它在发表之初其实并没有收到太多的关注，主要有两点原因：其一灵感来自于热力学领域，理解成本稍高；其二计算成本更高，对于大多高校学术实验室的显卡配置而言，训练时间比 GAN 更长更难接受。该模型借鉴了热力学中扩散过程的条件概率传递方式，通过主动增加图片中的噪音破坏训练数据，然后模型反复训练找出如何逆转这种噪音过程恢复原始图像，训练完成后。扩散模型就可以应用去噪方法从随机输入中合成新颖的”干净“数据。该方法的生成效果和图片分辨率上都有显著提升。不过，算力正是大模型研发公司的强项，很快扩散模型就在大公司的调试下成为生成模型新标杆，当前最先进的两个文本生成图像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen，都基于扩散模型。DALL·E 2 生成的图像分辨率达到了 1024 × 1024 像素。例如下图”生成一幅莫奈风格的日出时坐在田野里的狐狸的图像“：除了图像生成质量高，DALL·E 2 最引以为傲的是 inpainting 功能：基于文本引导进行图像编辑，在考虑阴影、反射和纹理的同时添加和删除元素，其随机性很适合为画师基于现有画作提供创作的灵感。比如下图中加入一只符合该油画风格的柯基： DALL·E 2 发布才五个月，尚没有 OpenAI 的商业化api开放，但有 Stable Diffusion、MidJourney 等下游公司进行了复现乃至商业化，将在后文应用部分介绍。 3、OpenAI的使命——开拓通往 AGI 之路 AIGC 大模型取得突破，OpenAI 只开放了api和模型思路供大家借鉴和使用，没去做下游使用场景的商业产品，是为什么呢？因为 OpenAI 的目标从来不是商业产品，而是通用人工智能 AGI。 OpenAI 的创始人 Sam Altman 是 YC 前总裁，投出过 Airbnb、Stripe、Reddit 等明星独角兽（另一位创始人 Elon Musk 在 18 年因为特斯拉与 OpenAI ”利益相关“离开）。他在 21 年发布过一篇著名的博客《万物的摩尔定律》，其中提到 OpenAI，乃至整个 AI 行业的使命是通过实现 AGI 来降低所有人经济生活中的智能成本。这里所谓 AGI，指的是能完成平均水准人类各类任务的智能体。因此，OpenAI 始终保持着学术型企业的姿态处于行业上游，成为学界与业界的桥梁。当学界涌现出最新的 state-of-art 模型，他们能抓住机会通过海量算力和数据集的堆叠扩大模型的规模，达到模型意义上的规模经济。在此之后克制地开放商业化 api，一方面是为了打平能源成本，更主要是通过数据飞轮效应带来的模型进化收益：积累更富裕的数据优化迭代下一代大模型，在通往 AGI 的路上走得更坚实。定位相似的另一家公司是 Deepmind——2010年成立，2014 年被谷歌收购。同样背靠科技巨头，也同样从强化学习智能决策领域起家，麾下的 AlphaGo 名声在外，Elon Musk 和 Sam Altman 刚开始组局创办 OpenAI，首要的研究领域就是步 AlphaGo 后尘的游戏决策 AI。不过 19 年后，两者的研究重心出现了分叉。DeepMind 转向使用 AI 解决基础科学如生物、数学等问题：AlphaFold 在预测蛋白质结构上取得了突破性的进展，另一个 AI 模型 AlphaTensor 自己探索出了一个 50 年悬而未决的数学问题：找到两个矩阵相乘的最快方法，两个研究都登上了 Nature 杂志的封面。而 OpenAI 则转向了日常应用的内容生成 AIGC 领域。 AIGC大模型是通往 AGI 路上极为重要、也有些出乎意料的一站。其重要性体现在 AI 对人类传达信息的载体有了更好的学习，在此基础上各个媒介之间的互通成为可能。例如从自然语言生成编程语言，可以产生新的人机交互方式；从自然语言生成图片和视频，可以革新内容行业的生产范式。意外性则是，最先可能被替代的不是蓝领，而是创作者，DeepMind 甚至在协助科学家一起探索科研的边界。 OpenAI 的模式也给了下游创业者更多空间。可以类比当年预训练语言模型发展初期，Hugging Face把握机会成为大模型下游的模型开源平台，补足了模型规模膨胀下机器学习民主化的市场空间。而对 AIGC 模型，未来会有一类基于大模型的创业公司，把预训练完成的 AIGC 模型针对每个子领域进行调优。不只需要模型参数优化，更要基于行业落地场景、产品交互方式、后续服务等，帮助某个行业真正用上大模型。正如 AI 的 bitter lesson 一样矛盾，投资者需要短期投资回报率、研究者需要短期投稿成功率，尽管OpenAI 走在通往 AGI 正确的路上，这条路道阻且长，短期很难看到极大的突破。而 Sam Altman 展望的大模型应用层公司很有可能有更高的高投资回报，让我们来介绍下主要的分类与创业者。百家争鸣的 AIGC 大模型应用层对应 OpenAI 大模型发布的顺序，模型应用层相对最成熟的是文本生成领域，其次是图片生成领域，其他领域由于还未出现统治级的大模型相对落后。文本领域天然应用场景丰富，且 GPT-3 开放 api 很久，细分赛道很多。大致可以根据生成内容不同分为两类：机器编程语言生成、人类自然语言生成。前者主要有代码和软件行为的生成等，后者主要有新闻撰写、文案创作、聊天机器人等。而图片领域当前还专注于图片自身内容的生成，预期随着未来3D、视频相关内容生成能力的增强，会有更多结合不同业务场景如游戏、影视这样细分领域的创业公司。以下是海外各子领域创业公司的梳理，接下来将针对几个领域的重要公司进行介绍。 1、编程语言文本领域最成熟的应用暂时不在人类自然语言，而是在代码等机器语言的生成领域。因为机器语言相对更结构化，易学习；比如鲜有长文本的上下文关系、基于语境的不同含义等情况。（1）代码生成：Github Copilot 代表公司是微软出品的 Github Copilot，编程中的副驾驶。该产品基于 OpenAI 专门用 GPT-3 为编程场景定制的AI模型 Codex。使用者文字输入代码逻辑，它能快速理解，根据海量开源代码生成造好的轮子供开发者使用。提高一家科技公司 10% 的 coding 效率能带来很大收益，微软内部已进行推广使用。相比低代码工具，Copilot 的目标群体是代码工作者。未来的低代码可能是两者结合：低代码 UI 界面实现代码框架搭建，代码子模块通过 Copilot 自动生成。正如 Copilot 的 slogan：Don’t fly solo，没有 Copilot 的帮助 coder 的工作会变得繁冗，没有 coder 的指引 Copilot 生成的内容可能会出现纰漏。也有用户报告了一些侵犯代码版权、或代码泄露的案例，当前技术进步快于版权法规产生了一定的空白。（2）软件行为生成：Adept.ai Adept.ai 是一家明星创业公司。创始团队中有两人是Transformer 模型论文作者，CEO 是谷歌大脑中大模型的技术负责人，已经获得 Greylock 等公司 6500 万美元的 A 轮融资。他们的主要产品是大模型 ACT-1，让算法理解人类语言并使机器自动执行任务。目前产品形态是个 chrome 插件，用户输入一句话，能实现单击、输入、滚动屏幕行文。在展示 demo中，一位客服让浏览器中自动记录下与某位顾客的电话，正在考虑买 100 个产品。这个任务需要点击 10 次以上，但通过 ACT-1 一句话就能完成。软件行为生成颠覆的是当下的人机交互形式，使用文字或语音的自然语言形式来代替当下人与机器的图形交互模式（GUI）。大模型成熟后，人们使用搜索引擎、生产力工具的方式都将变得截然不同。 2、自然语言自然语言下还有多个应用型文本生成领域值得关注：新闻撰写、文案创作、对话机器人等。（1）新闻撰写最著名的是 Automated Inights。他们的结构化数据新闻撰写工具叫做 wordsmith，通过输入相应数据和优先级排序，能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出 300 余篇财报相关报道，在雅虎体育新闻中也已经崭露头角。据分析师评价，由 AI 完成的新闻初稿已接近人类记者在 30 分钟内完成的报道水准。 Narrative Science是另一家新闻撰写生成公司，其创始人甚至曾预测，到 2030 年，90%以上的新闻将由机器人完成。（2）文案创作该领域竞争较为激烈，有copy.ai、Jasper、copysmith 等公司。他们基于 GPT-3 的能力加入了文案领域的人工模板与结构，为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith 为例：（3）对话机器人前面提到的 Adept.ai 由Transformer 模型的一作和三作联合创立；而二作也创业了，他创办的 Character.ai 是当前对话机器人中使用效果最逼真的。该对话机器人可以自定义或使用模板来定义角色的家庭、职业、年龄等，在此基础上保持一贯的设定和符合设定的对话风格。经常能体现出一定的共情对话能力带给人惊喜，并且支持多语言互通。比如他们有已训练好的马斯克等名人和一些动漫角色，与他们对话会有很棒的代入感。而商业化的对话机器人，在客服、销售等行业有巨大的市场空间，但如今还为成熟。主要出现的问题有二：其一，客服、销售行业遇到的客户往往情绪状态不稳定，AI 难以对情绪进行适应并调整对话内容；其二，AI 的多轮对话能力较弱，无法保证持续有效的跟进问题。（4）创作性文本 AI 对于长文本创作有一定困难，难以保持1000字以上的文本创作后仍能进行上下文的联系。但基于短文本创作仍有一些有趣的应用，例如基于GPT-3的 AI Dungeon，可以引导 AI 创造一个虚拟游戏世界观。该领域进一步的成长需要期待未来 3-5 年，有成熟的能产出千字内容的 AI 出现。 3、多模态图片 DALL·E2 是极具突破性的 AIGC 大模型，但距离丰富生产力和创造力的成熟产品还有差距。因此有研究者顺着 DALL·E 和 CLIP 的思路开发了开源版本的扩散模型，就像当年的 Hugging Face 那样，并将其根据创作者社区的反馈转变为更成熟易用的商业产品。接下来就介绍几个主要出圈的模型：（1）Disco Diffusion 最早出圈的 AI 绘图工具是开源模型Disco Diffusion。发布时间比 DALL·E 2 稍晚，同样也是 CLIP + Diffusion Model 的结构，生成效果让许多插画师担心起了失业。尽管很多插画师和 AI 工具爱好者的推荐都认可了该工具的易用性和生成效果的出众，但其生成时间略长有待优化，可以认为是大家对图片生成大模型的初体验。（2）MidJourney 该模型发布后不久，Disco Diffusion 的开发者 Somnai 加入了 MidJourney，和团队一起打造了一款产品化的 Disco Diffusion。 Midjourney 的创始人 David Holz 并不是以CV（计算机视觉）研究为主，更关注人机交互。产品公测和主要交流平台都基于Discord，使用 Discord Bot 进行交互，打造了相当良好的社区讨论环境。使用中印象深刻的有几个重要功能：MidJourney 画廊中可以看到每时每刻创作者们用 MJ 创作出的作品，用户可以对作品进行打分，每周排名靠前的作品将得到额外的 fast GPU 时间奖励。同时，MJ官方还为用户贴心的提供了引导语 prompt 集合和 AI 擅长的风格指南，指导用户如何最高效的生成出他们想要的图片。基于良好的产品和社区体验，MidJourney 的付费用户量也是目前最大的。目前收费模式采用了订阅制，个人用户有两个档位，每月最多 200 张图片（超额另收费）的 10 美元/月，以及”不限量“图片的 30 美元/月；对企业客户，单人一年收费仅有 600 美元，且生成的作品可以商用（当前法规尚不完善，仍可能存在一定版权问题）。（3）Stable Diffusion 如果说 MidJourney 是一个勤勤恳恳的绩优生，那么 Stability.ai 则是天赋异禀技术力强、诞生之初就备受 VC 追捧的富二代，公司估值已达到十亿美元。产品 Stable Diffusion 首要目标是一个开源共创模型，与当年的 Hugging Face 神似。创始人 Emad 之前是对冲基金经理，用自己充裕的资金联合 LMU 和 Runaway ML开发了开源的 Stable Diffusion，在 Twitter 上使用扎克伯格在 Oculus 发布会上的照片作为背景，号召SD会成为”人类图像知识的基础设施“，通过开源让所有人都能够使用和改进它，并让所有人更好地合作。 Stable Diffusion 可以认为是一个开源版本的DALL·E2，甚至不少使用者认为是当前生成模型可以使用的最佳选择。官方版本部署在官网 Dream Studio 上，开放给所有用户注册。相比其他模型，有很多可以定制化的点。不过官网只有 200 张免费额度，超过需要付费使用，也可以自行使用开源 Colab 代码版无限次使用。此外，Stable Diffusion 在压缩模型容量，希望使该模型成为唯一能在本地而非云端部署使用的 AIGC 大模型。 05 AIGC大模型的未来展望 1、应用层：多模态内容生成更加智能，深入各行业应用场景上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后， AIGC 内容能进入商用后，必然会更深入地与业界的实际应用进行结合：以游戏行业为例， AI 作画给了非美术专业工作者，如游戏策划快速通过视觉图像表达自己需求和想法的机会；而对美术画师来说，它能够在前期协助更高效、直接地尝试灵感方案草图，在后期节省画面细节补全等人力。此外，在影视动画行业、视频特效领域，甚至是文物修复专业，AI 图片生成的能力都有很大想象空间。当然，这个领域 AI 的能力也有着不小的进步空间，在下面的未来展望部分进行阐发。目前 AIGC 存在 Prompt Engineering 的现象，即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷，被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化，不会是常态，但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。 2、模态层：3D生成、视频生成 AIGC 未来3-5年内有明显进步多模态（multimodal）指不同信息媒介之间的转换。当前 AI 作图过程中暴露的问题会成为视频生成模型的阿喀琉斯之踵。例如：AI 作画的空间感和物理规则往往是缺失的，镜面反射、透视这类视觉规则时常有所扭曲；AI 对同一实体的刻画缺少连续性。根本原因可能是目前深度学习还难以基于样本实现一些客观规则泛化，需要等待模型结构的优化进行更新。 3D生成领域也有很大价值：3D 图纸草图、影视行业模拟运镜、体育赛场现场还原，都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。 2020年，神经辐射场（NeRF）模型发布，可以很好的完成三维重建任务：一个场景下的不同视角图像提供给模型作为输入，然后优化 NeRF 以恢复该特定场景的几何形状。基于该技术，谷歌在2022年发布了 Dream Fusion 模型，能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间，预期在未来3-5年内会取得突破性进展，推动视频生成的进步。 3、模型层：大模型参数规模将逼近人脑神经元数量近年的大模型并未对技术框架做颠覆性创新，文本和图像生成领域在大模型出现前，已有较成熟方案。但大模型以量变产生质变。从神经网络角度看，大脑有约 100 万亿神经元， GPT-3 有 1750 亿参数，还相差了 1000 倍的数量级，随着算力进步可以发展的空间还很大。神经网络本质是对高维数据进行复杂的非线性组合，从而逼近所观测数据分布的最优解，未来一定会有更强的算力、更精妙的参数堆叠结构，来刷新人们对AI生成能力的认知。 4、成本结构决定大模型市场的马太效应大模型最直接的成本便是能源成本（energy cost），GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ，大科技公司才能训练大模型。但随着近年模型压缩、硬件应用的进步，GPT-3 量级的模型成本很可能已降至百万美元量级，Stable Diffusion 作为一个刚发布一个月的产品，已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。在这样的背景下，算力成本在未来必然会逐渐变得更合理，但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。大模型有明显的先发优势，来自巨大的隐形成本：智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化，甩开后发的竞争者，达到模型性能的规模效应。 AI 的进化来自于数据的积累和充分吸收。深度学习，乃至当前的所有机器学习都是基于历史预估未来，基于已有的数据给到最接近真实的可能。正如前文讨论的，OpenAI 的目标从来不是留恋于某个局部行业的商业产品，而是通过模型规模经济，不断地降低人类社会全局的智能成本，逼近通用人工智能 AGI。规模经济正体现在智能成本上。 5、虚拟世界的 AGI 会先于现实世界诞生从更宏观的视角上，虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景，都对 Corner Case 要求极高。对于AI模型而言，一件事超过他们的经验范畴（统计上out of distribution），模型将立马化身人工智障，不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损，造成数据积累过程中极大的试错成本。虚拟世界则不同，绘图时遇到错位扭曲的图片，大家会在 Discord 中交流一笑了之；游戏 AI 产生奇怪行为，还可能被玩家开发出搞怪玩法、造成病毒传播。因此虚拟世界，尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本，能很顺畅地形成低成本的正向循环。伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成，虚拟世界内容场景下的 AI 很可能更早触及到 AGI。来源：金色财经

金色财经2023-02-21

金色Web3.0日报 | Aave储备金库规模增长至近1.5亿美元

项目进行整合，首个集成的项目是 AI 视频生成工具 Klon，该项目目前处于封闭测试阶段，用户获得 AI NFT 后可以解锁特定功能，比如在视频中设定特殊语音等。 DeFi热点 1.Aave储备金库规模增长至近1.5亿美元金色财经报道，据Delphi Digital在社交媒体披露数据显示，去中心化借贷协议 Aave 的储备金库规模已达到 1.43 亿美元，其中包括价值 1.2 亿美元的 AAVE、700 万美元的 USDC、500 万美元的 DAI、500 万美元的 USDT 、以及 200 万美元的 WETH 等。数据显示，过去三个月 Aave 储备金库增长幅度超过了 BenQI 和 Compound，但新地址增长出现下降，可能意味着该 DeFi 协议未来采用仍存在潜在障碍。 2.SushiSwap将于3月9日启动DeFi Kitchen虚拟活动和黑客松 2月3日消息，SushiSwap宣布启动TheDeFi Kitchen:Avirtual DeFi Summit&Hackathon，时间为北京时间3月9日23:00至3月10日03:30。DeFi Kitchen虚拟活动将向所有人开放，黑客松将面向开发者。Sushi Swap已与ETH Dubai合作，将在活动最后发布公告、举办技术研讨会、设立奖项。 3.BonqDAO攻击事件黑客今日抛售520万枚ALBT，获利74ETH 金色财经报道，据PeckShield监测显示，非托管借贷平台BonqDAO攻击事件黑客今日抛售520万枚ALBT，获利74ETH（约合15.5万美元），平均价格在0.015美元至0.035美元之间。金色财经此前报道，BonqDAO和加密基础设施平台AllianceBlock昨日因BonqDAO的智能合约被漏洞利用，损失约8800万美元。 4.DeFi工具开发公司AUROX发起符合SEC标准的众筹融资 2月2日消息，DeFi 工具开发公司 Aurox 宣布在际交易集团投资的通证化证券平台 tZERO Markets 上发起众筹融资活动，寻求从公众筹集资金以继续产品开发和扩展，本次融资符合美国证券交易委员会 (SEC) 颁布的众筹条例 (CF)。Aurox 由加密交易员 Giorgi Khazaradze、Ziga Naglic 和 Taraz Andreyevich 于 2020 年共同创立，其开发工具为交易者、投资者和机构提供去中心化金融服务，目前已集成 50 多家交易所和 10 万多个交易对，去年已发布 Web3 钱包。免责声明：金色财经作为区块链资讯平台，所发布的文章内容仅供信息参考，不作为实际投资建议。请大家树立正确投资理念，务必提高风险意识。来源：金色财经

金色财经2023-02-03

苹果用于创建3D虚拟场景的AIGC呼之欲出 2023年有望成为AIGC的拐点

难以达到稳定可靠的生成高质量图像；4）视频生成：跨模态生成领域的中高潜力场景；5）图像、视频、文本间的跨模态生成：文本到视频转换目前还处于技术尝试阶段；6）策略生成：国内相关游戏厂商普遍存在内部开发或外部测试需求；7）虚拟人生成：视频是短期的发展重点。　　西部证券认为，2023年有望成为AIGC发展大年。近期微软、谷歌等全球计软件互联网大厂大力投入AIGC，并开始探索应用层面的突破，AIGC已经来到2年前自动驾驶的应用突破拐点，2023年有望成为AIGC大年。类似ChatGPT的“大模型”作为AIGC的底层平台，将成为AIGC的核心资源。　　该机构建议关注：1、自研AIGC大模型或者有相关AI技术布局的上市公司：云从科技、拓尔思、金山办公、科大讯飞、商汤科技等；2、掌握独特场景，拥有AIGC应用场景的上市公司：汉仪科技、万兴科技、新国都、海天瑞声。　　吉宏股份（002803）目前在跨境电商板块和SaaS吉喵云的主要业务模块里使用的AIGC技术均是由自己开发。　　首都在线（300846）通过对AIGC应用特征及需求场景的深入分析，提供了“云算力解决方案”，可广泛应用于AIGC的文字、图像、音频、游戏和代码的业务场景中，加速AI推理的内容生成，提高用户应用体验。

金融界2023-01-31

24小时热点