界上首个出售的 AIGC 画作在佳士得拍卖行以 43.25 万美元成交,引发各界关注。随着AI的内容生成能力不断增强,场景落地开花,AIGC 产业浪潮兴起。结合人工智能的演进历程,AIGC 的发展大致可以分为4 个阶段,即: 早期萌芽阶段(20 世纪 50 年代至 90 年代中期)、沉淀积累阶段(20 世纪90 年代中期至21 世纪 10 年代中期) ,快速发展阶段(21 世纪10 年代中期至今)以及当前的破圈爆发阶段(2022 年至今)。 早期萌芽阶段 (1950s-1990s) :技术所限,AIGC 局限于小范围实验。1957年,莱杰伦·希勒 (Leiaren Hiller ) 和伦纳德·艾萨克森( LeonardIsaacson)通过将计算机程序中的控制变量换成音符得到了历史上第一支由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲 ( Illiac Suite )》。1966 年,世界第一款可人机对话的机器人“伊莉莎 ( Eliza)”问世,其可在关键字扫描和重组的基础上进行人机交互。80 年代中期,IBM 基于隐形马尔科夫链模型( HiddenMarkovModel,HMM) 创造了语音控制打字机“坦戈拉( Tangora )”,能够处理约20000个单词。然而在 20 世纪末期,高昂的研发与系统成本与难以落地商业变现模式,各国政府减少了对人工智能领域的投入,AIGC 发展暂时停滞。 沉淀积累阶段 (1990s-2010s):AIGC 实用性增强,开启商业化探索。2006年,深度学习算法取得重大突破,且同期图形处理器( Graphics Processing Unit,GPU)、张量处理器( Tensor Processing UnitTPU) 等算力设备性能不断提升。数据层面互联网的发展引发数据规模快速膨胀,成为 AIGC 发展的算法训练基础,AIGC发展取得显著进步。但算法仍然面临瓶颈,创作任务的完成质量限制了AIGC的应用,内容产出效果仍待提升。2007 年,纽约大学人工智能研究员罗斯·古德温装配的人工智能系统通过对公路旅行中见闻的记录和感知,撰写出世界第一部完全由人工智能创作的小说《1 The Road》。但其仍整体可读性不强的劣势,存在拼写错误、辞藻空洞、缺乏逻辑等问题。微软 2012 年公开展示的全自动同声传译系统,基于深层神经网络 (Deep Neural Network,DNN)可自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。 快速发展阶段(2010s-2021):深度学习算法的不断迭代促进内容生态百花齐放。2014 年以来,以生成式对抗网络 (Generative Adversarial Network,GAN)为代表的深度学习算法被提出和迭代更新,AIGC 进入生成内容多样化的时代,且产出的内容效果逼真到难以分辨。2017 年,世界首部全部由AI 创作的诗集《阳光失了玻璃窗》由微软的人工智能少女“小冰”创造。2018 年,英伟达了可以自动生成图片的 StyleGAN 模型,截止 2022 年末,其已升级到第四代StyleGAN-XL,可生成人眼难以分辨真假的高分辨率图片。2019 年,DeepMind 发布了可生成连续视频的 DVD-GAN 模型。2021 年,OpenAI 推出了 DALL-E,并于2022 年将其升级为DALL-E-2。该产品主要生成文本与图像的交互内容,可根据用户输入的简短描述性文字,得到极高质量的卡通、写实、抽象等风格的图像绘画作品。 爆发与破圈阶段(2022-至今):2022 年以来,AIGC 产品密集发布,ChatGPT爆火出圈。Google 于 2022 年五月推出了文本图像生成模型lmagen,同年8月,开源 AI 绘画工具 StableDiffusion 发布;2022 年 9 月,Meta 推出可利用文字生成视频的产品 Make-A-Video 以推动其视频生态的发展。2022 年11 月30 日,OpenAl推出 AI 聊天机器人 ChatGPT,AIGC 的内容产出能力迅速吸引大批用户,至2022年 12 月 5 日,根据 OpenAI 创始人表示,ChatGPT 用户数已突破100 万。2023年2 月,微软宣布推出由 ChatGPT 支持的新版本 Bing 搜索引擎和Edge 浏览器,AIGC与传统工具进入深度融合历程。 算力与数据皆备、大模型加速 AIGC 技术导入,应用创新、场景落地渐行渐近 深度模型的进步与创新奠定 AIGC 走向成熟的基础。就底层技术而言,不断创新的生成算法、预训练模型、多模态等技术是 AIGC 行业发展的前提,以此为基础AIGC在自动化内容生成上具备了通用性、基础性多模态、参数多、训练数据量大、生成内容高质稳定等特征优势。 预训练模型进一步打开了 AIGC 的技术和商业化可能。以往的生成模型存在使用门槛高、训练成本高、内容生成简单和质量偏低等劣势,而真实内容消费场景具备灵活多变、高精度、高质量等痛点要求。预训练模型的出现通过提高AIGC技术能力解决了上述问题。AI 预训练模型。即大模型、基础模型(FoundationModel),其基于大量数据与巨量参数的模型,可适应下游广泛任务并显著提高各种下游任务的性能。AIGC 进入预训练模型时代以 2018 年谷歌发布基于Transformer机器学习方法的自然语言处理预训练模型 BERT 为标志。当前按照基本类型分类,预训练模型包括:(1)自然语言处理(NLP) 预训练模型,如谷歌的LaMDA 和PaLM、OpenAl 的 GPT 系列;(2)计算机视觉(CV)预训练模型,如微软的Florence:(3)多模态预训练模型,即融合文字、图片、音视频等多种内容形式。 以 GPT 为代表的大模型表现优异,AIGC 加速从实验室设想向产业化落地。1)根据 IDC 的定义,AI 大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的核心作用是突破数据标注的困境,通过学习海量无标注的数据来做预训练,拓展整体模型前期学习的广度和深度,以此提升大模型的知识水平,从而低成本、高适应性地赋能大模型在后续下游任务中的应用;2)以GPT 系列自然语言处理模型为例,从 2018 年 6 月的GPT-1 模型,经过数代的模型迭代,GPT3.5 已经从早期的 1.17 亿参数量提升至当前的千亿级以上,而基于GPT3.5 的 ChatGPT 在人机对话中表现优异并火爆出圈,印证了大模型在文本、图像乃至视频等领域内容生成的可能性和商业化潜力。 从 PGC 到 AIGC,AI 有望重构内容与媒介生态 AIGC 多样化的内容生成能力使其覆盖各类内容形式,各类应用场景正随技术进步逐渐落地。AIGC 不仅可覆盖文本、音频、图像、视频等基本内容模态,还可综合图像、视频、文本进行跨模态生成,并应用于各类细分行业成为具体的生产力要素,例如游戏行业中的 AI NPC、虚拟人的视频制作与生成等。 从 PGC 到 AIGC,内容与平台从生态到商业模式有望重塑,新投资周期即将来临。1)从 PGC 到 UGC、PUGC,传媒互联网从 web 1.0 的门户时代进入到移动互联网的web 2.0 时代,结合算法推荐的信息分发模式诞生了以字节跳动(抖音、今日头条)、美团、快手、小红书等为代表移动互联网新贵;2)算法推荐重塑了信息分发模式,而 AIGC 则实现了信息、内容的 AI 创作,内容生产将从PGC、UGC、PUGC迈入 AIGC 时代,内容生产的效率有望实现跨越式提高,内容将迎来大爆发时刻,与之相应的,从内容到媒介平台都将会迎来生态和商业模式的重塑,内容与平台的新投资周期即将来临。 投资分析 AI 是新一轮生产力革命,算法创新及算力进步、数据爆发,催化本轮人工智能奇点将至。1)人工智能(AI)基于机器学习和数据分析的方法,赋予机器人类的能力,从而实现解放人力、降本提效的目的,已经成为推动新一轮生产力革命的核心技术方向;2)经历符号主义、连接主义和行为主义的持续演进,最终诞生了引导本轮 AI 落地的深度学习技术;深度学习技术的出现,改变了传统AI 的技术路线,解决了传统机器学习算法无法处理大量数据、准确率遭遇瓶颈的问题,使得AI 从理论上具备了工程化落地的可能;基于摩尔定理的算力提升,互联网及数字经济的快速发展带来的数据量井喷,使得 AI 最终从设想走向场景落地,在语音识别、图像识别等领域的计算准确度都实现了突破性进展并得到广泛应用。 从算法推荐到内容生成,AIGC 有望带动新一轮内容与平台革命。1)从传媒互联网的实践来看,基于 AI 算法推送的信息分发模型已经为web 2.0 时代主流的信息组织模式,并诞生出以字节跳动、快手、小红书等为代表典型产品和商业案例;2)从算法推动到内容生成(AIGC),新时代的大门正在打开:海量的数据资源、快速提升的算力水平和不断降低的单位算力成本开销、基于深度学习的预训练大模型构建的通用大模型显著降低应用开发门槛,数字化的高渗透率赋予充裕场景应用可能;从 PGC 到 AIGC,内容生产的大爆炸将重塑内容与平台生态、商业模式,新一轮产业机遇渐行渐近。 来源:金色财经lg...