I 的创始人山姆奥特曼在今年 1 月的达沃斯论坛上谈到:「未来人工智能需要能源突破,因为人工智能消耗的电力将远远超出人们的预期。」 在算力和能源之后,快速增长的 AI 行业的下一个短缺的领域很可能是数据。 或者说, AI 所需要的优质数据的短缺已经成为现实。 目前人类从 GPT 的进化中,已经基本摸清了大语言模型能力增长的规律——即通过扩大模型参数和训练数据,就能指数级别提升模型的能力——且这一进程短期还看不到技术瓶颈。 但问题是优质且公开的数据在未来或许将越来越稀少, AI 产品在数据上可能会面临跟芯片、能源一样的供需矛盾。 首先是数据所有权的争端增加。 2023 年 12 月 27 日,《纽约时报》正式向美国联邦地方法院起诉 OpenAI 和微软,指控它们未经许可使用了自己数百万篇文章用于训练 GPT 模型,要求它们对「非法复制和使用独特价值的作品承担数十亿美元的法定和实际损害赔偿」,还要销毁所有包含《纽约时报》版权材料的模型和训练数据。 此后的 3 月底,《纽约时报》发表了一篇新的声明,矛头不仅指向了 Open AI ,还瞄准了 Google 和 Meta 。《纽约时报》这份声明中说, Open AI 通过一款名为 Whisper 的语音识别工具转录了大量 YouTube 视频中的语音部分,然后生成文字,作为文本来训练 GPT -4。《纽约时报》表示,现在大公司训练 AI 模型时使用小偷小摸的手段已经非常普遍,并表示这样的事谷歌也在做,他们也把 YouTube 视频内容转成文字,用于自己大模型的训练,本质上侵犯了视频内容创作者的权益。 《纽约时报》与 Open AI 作为「 AI 版权第一案」,考虑到案件内容的复杂性和对内容和 AI 产业未来的深远影响,未必很快能得出一个结果。最终可能的结果之一是双方庭外和解,财大气粗的微软和 Open AI 支付一笔大额补偿金。但未来更多的数据版权摩擦势必将抬高优质数据的综合成本。 此外,作为世界上最大的搜索引擎, Google 也曝出正在考虑对自己的搜索功能收费,只不过收费对象不是普通大众,而是 AI 公司。 来源:路透社 谷歌的搜索引擎服务器里保存着大量内容,甚至可以说是自从 21 世纪以来所有互联网页面上出现过的内容谷歌都保存着。而目前 AI 驱动的搜索产品,海外的如 perplexity ,国内的如 Kimi 、秘塔,都对这些搜索到的数据通过 AI 进行加工,再输出给用户。搜索引擎对 AI 的收费,必然提升数据的获取成本。 实际上,除了公开的数据之外, AI 巨头们还盯上了非公开的内部数据。 Photobucket 是一家老牌的图片和视频托管网站, 在 2000 年代初曾拥有 7000 万用户和近一半的美国在线照片市场份额。随着社交媒体的兴起, Photobucket 用户数量大幅下降,目前仅剩 200 万活跃用户(它们每年要支付 399 美金的高昂费用),而根据用户注册时签署的协议和隐私政策,超过一年没用使用的账户会被回收,还支持 Photobucket 对用户上传的图片和视频数据的使用权。 Photobucket 首席执行官 Ted Leonard 透露,其拥有的 13 亿张照片和视频数据对训练生成式 AI 模型极具价值。他正在与多家科技公司就出售这些数据进行谈判,报价范围从每张照片 5 美分到 1 美元不等,每段视频超过 1 美元,其估计 Photobucket 可提供的数据价值超过 10 亿美金。 专注于人工智能发展趋势的研究团队 EPOCH ,根据 2022 年机器学习对数据的使用和新数据的生成情况,再考虑计算资源的增长,曾经发表了一篇关于机器学习所需的数据的情况报告《 Will we run out of data ? An analysis of the limits of scal in g data sets in Mach in e Learn in g》,报告的结论是高质量的文本数据大约会在 2023 年 2 月到 2026 年之间用尽,图像数据则会在 2030 年到 2060 年间用尽。如果数据的利用效率不能显著提高,或出现新的数据来源, 目前依赖于海量数据集的大型机器学习模型趋势可能会放缓。 而就目前 AI 巨头们纷纷高价采买数据的情况来看,免费的优质文本数据真的已经基本用尽, EPOCH 在 2 年前的预测是比较准确的。 同时,围绕「 AI 数据短缺」的需求的解决方案也在出现,即: AI 数据提供服务。 Defined . ai 就是一家为 AI 公司提供定制化真实高质量数据的公司。 Defined.ai 所能提供的数据类型举例:https://www.defined.ai/datasets 它的生意模式是: AI 公司给 Defined . ai 提供自己对于数据的需求,比如就图片而言,质量方面需要分辨率达到多少以上、避免模糊、过曝、内容真实。内容方面 AI 公司可以根据自己的训练任务,定制特定的主题,比如需要夜里的照片、夜里的锥桶、停车场、指示牌,用来提高 AI 在夜景下的识别率。大众都可以领任务,拍完上传由公司审核,然后把符合要求的部分按张数结算,价格大约是一张高质量的图片 1-2 美元,一个十几秒的短片 5-7 美元,一部 10 分钟以上的高质量影片 100-300 美元,文本是千字 1 美元,领分包任务的人可以得到其中 20% 左右的费用。数据提供可能会成为「数据标记」之后的又一门众包生意。 全球范围的任务众包分配、经济激励、数据资产的定价\流通和隐私保护、人人可以参与,听起来就特别像一门适合 Web3 范式的商业门类。 产业供给端视角下的 AI 叙事标的 芯片短缺引发的关注渗透到加密行业,让分布式算力成为了截止目前最热门、市值最高的 AI 赛道类别。 那么 AI 产业在能源和数据上的供需矛盾如果在未来 1-2 年中爆发,加密行业目前有哪些叙事相关的项目? 先来看能源类的标的。 已经上线了头部 CEX 的能源类项目非常稀少,仅有 Power Ledger (代币 Powr )一个。 Power Ledger 于 2017 年立项,是一个基于区块链技术的综合能源平台,旨在实现能源交易的去中心化,推动个人和社区直接交易电力,支持可再生能源的广泛应用,并通过智能合约确保交易的透明和高效。最初 Power Ledger 基于以太坊改造而来的联盟链运行。2023 年下半年, Power Ledger 更新了白皮书,并推出了自己的综合型公链,该公链基于 Solana 的技术框架改造而来,便于处理分布式能源市场中的高频微交易。目前 Power Ledger 的主要业务包括: · 能源交易:允许用户点对点地直接买卖电力,特别是来自可再生能源的电力。 · 环境产品交易:比如碳信用和可再生能源证书的交易,以及基于环境产品的融资。 · 公链运营:吸引应用开发者在 Powerledger 区块链上构建应用,公链的交易费用以 Powr 代币支付。 目前 Power Ledger 项目的流通市值为 1.7 亿 $,全流通市值为 3.2 亿 $。 相比能源类的加密标的,数据赛道的加密标的数量则更丰富一些。 笔者仅罗列目前自己关注的,并已经至少上线了币安、 OKX 和 Coinbase 其中一家 CEX 的数据赛道项目,且按照 FDV 从低至高排列: 1. Streamr – DATA Streamr 的价值主张是构建一个去中心化的实时数据网络,允许用户自由地交易和分享数据,同时保持对自己数据的完全控制。通过其数据市场, Streamr 希望使数据生产者能够直接向感兴趣的消费者销售数据流,无需中介机构,从而降低成本并提高效率。 来源:https://streamr.network/hub/projects 在实际的合作案例中, Streamr 与另一个 Web3 车载硬件项目 DIMO 合作,通过装载在车辆上的 DIMO 硬件传感器收集温度、气压和其他数据,形成天气数据流传输给需要的机构。 与其他数据项目相比, Streamr 更侧重于物联网、硬件传感器的数据,除了上面提到的 DIMO 车载数据之外,其他项目还有赫尔辛基的实时交通数据流等。因此, Streamr 的项目代币 DATA 也曾经在去年 12 月, Depin 概念最火热的时候一度创造出了单日翻倍的涨幅。 目前 Streamr 项目的流通市值为 4400 万 $,全流通市值为 5800 万 $。 2. Covalent – CQT 与其他数据类项目不同的是, Covalent 提供的是区块链数据。 Covalent 网络通过 RPC 从区块链节点读取数据,然后对这些数据进行处理和组织,创建一个高效的查询数据库。这样, Covalent 的用户们可以快速地检索到他们需要的信息,而不必直接从区块链节点进行复杂的查询,这类服务也被称为「区块链数据索引」。 Covalent 的客户以 B 端为主,其中既有 Dapp 项目,比如各种 Defi ,也包括很多中心化加密公司,比如 Consensys ( Metamask 的母公司), CoinGecko ( 知名加密资产行情站 )、 Rotki ( 税务工具 )、 Rainbow ( 加密钱包 ) 等,此外传统金融行业中的巨头富达、四大会计事务所安永,也是 Covalent 的客户。根据 Covalent 官方披露的数据,项目的来自于数据服务的收入已经超过同领域的头部项目 The Graph 。 Web3 行业由于链上数据的完整性、公开性、真实性以及实时性,有望成为细分 AI 场景和特定「 AI 小模型」的优质数据来源。 Covalent 作为数据提供方,已经开始为各类 AI 场景提供数据,并推出了专门面向 AI 的可验证的结构化数据。 来源:https://www.covalenthq.com/solutions/decentralized-ai/ 比如为链上智能交易平台 SmartWhales 提供数据,利用 AI 识别出盈利的交易模式和地址; Entendre Finance 则通过 Covalent 的结构化数据,经过 AI 处理用于实时洞察、异常检测和预测分析等。 目前来看, Covalent 提供的链上数据服务的主要场景仍以金融为主,但随着 Web3 产品和数据类型的泛化,链上数据的使用场景也将进一步拓展。 目前 Covalent 项目的流通市值为 1.5 亿 $,全流通市值为 2.35 亿 $,相对于同赛道的区块链数据索引项目 The Graph ,具有比较明显的估值优势。 3. Hivemapper – Honey 在所有数据素材中,视频数据的单价往往是最高的。 Hivemapper 可以为 AI 公司提供包括视频和地图信息在内的数据。 Hivemapper 本身是一个去中心化的全球地图项目,旨在通过区块链技术和社区贡献来创建一个详细、动态且可访问的地图系统。参与者可以通过行车记录仪( dashcam )捕捉地图数据并将其添加到开源的 Hivemapper 数据网络中,并基于贡献获得项目代币 HONEY 的奖励。为了提高网络的效应和降低交互成本, Hivemapper 构建在 Solana 上。 Hivemapper 最早成立于 2015 年,最初的愿景是使用无人机创建地图,但后来发现这种模式难以扩展,从而转向使用行车记录仪和智能手机来捕捉地理数据,降低了全球地图制作的成本。 与 Google map 等街景和地图软件相比,Hive map per 通过激励网络和众包模式,能更高效地拓展地图覆盖范围、保持地图实景的新鲜度、提升视频质量。 在 AI 对数据的需求爆发之前, Hivemapper 的主要客户包括汽车产业的自动驾驶部门、导航服务公司、政府、保险和地产公司等。如今 Hivemapper 则可以通过 API 为 AI 和大模型提供广泛的道路和环境数据,通过不断更新的图像和道路特征数据流的输入, AI 和 ML 模型将能够更好地将数据转化为能力的提升,执行与地理位置、视觉判断有关的任务。 数据来源:https://hivemapper.com/blog/diversify-ai-computer-vision-models-with-global-road-imagery-map-data/ 目前 Hivemapper – Honey 项目的流通市值为 1.2 亿 $,全流通市值为 4.96 亿 $。 除了以上三个项目之外,数据赛道的项目还有 The Graph – GRT (流通市值 32 亿 $, FDV 37 亿 $),其业务与 Covalent 类似,也提供区块链数据索引的服务;以及 Ocean Protocol – OCEAN (流通市值 6.7 亿 $, FDV 14.5 亿 $,本项目即将与 Fetch . ai 和 SingularityNET 合并,代币转换为 ASI ),一个开源协议,旨在促进数据和数据相关服务的交换和货币化,将数据消费者与数据提供者连接起来,从而在保证信任、透明和可追溯性的前提下共享数据。 AI 叙事的第二个视角: GPT 时刻再现,通用人工智能降临 在笔者看来,加密行业里「 AI 赛道」的元年是 GPT 震惊世界的 2023 年,加密 AI 项目的暴涨,更多是 AI 产业爆炸式发展带来的「热度余波」。 虽然 GPT3 .5 之后 GPT4 、 turbo 等的能力不断升级,以及 Sora 在视频创作能力的惊人展现,包括 Open AI 之外的大语言模型也快速发展,但不可否认的是 AI 的科技进步给大众带来的认知冲击正在减弱,人们开始逐渐使用 AI 工具,大规模的岗位替代似乎还未发生。 那么,未来 AI 领域是否还会再现「 GPT 时刻」,出现让大众震惊的 AI 跨越式发展,让人们意识到自己的生活和工作都将因此被改变? 这个时刻可能是通用人工智能( AGI )的降临。 AGI 指的是机器拥有类似于人类的综合认知能力,能够解决各种复杂问题,而不仅限于特定任务。AGI 系统拥有高度的抽象思维、广泛的背景知识、全领域的常识推理和因果关系理解、以及跨专业的迁移学习等能力。 AGI 的表现与各个领域最优秀的人类无异,就综合能力来说则完全超越最优秀的人类群体。 实际上,无论科幻小说和游戏、影视作品之中的呈现,还是在 GPT 迅速普及之后的大众预期,社会大众对超越人类认知水平的 AGI 的出现早有预期。或者说, GPT 本身就是 AGI 的先导产品,是通用人工智能的预言版。 而 GPT 之所以有这么大的产业能量和心理冲击,在于其落地的速度和表现超越了大众的预期:人们没想到,一个能完成图灵测试的人工智能系统真的到来了,而且速度这么快。 实际上,人工智能 ( AGI )或许将在 1-2 年内再次复现「 GPT 时刻」的突然性:人们才刚刚适应 GPT 的辅助,就发现 AI 已经不仅仅是一个助手,它甚至能独立完成极具创造性和挑战的工作,包括那些困住人类顶尖科学家几十年的难题。 在今年 4 月 8 日,马斯克接受了挪威主权财富基金首席投资官 Nicolai Tangen 的采访,谈到了 AGI 出现的时间。 他说:「如果把 AGI 定义为比最聪明的那部分人类还要聪明的话,我认为它很可能在 2025 年出现。」 也就是按照他的推断,最多就是还需要 1 年半的时间, AGI 就将降临。当然,他加了一个前提条件,就是「电力和硬件都跟得上的话。」 AGI 的降临的好处是显而易见的。 它意味着人类的生产力水平将大跨步地上一个台阶,大量困住我们几十年的科研难题将迎刃而解。假如我们把「最聪明的那部分人类」定义为诺贝尔奖得主的水平,也就意味只要能源、算力、数据足够,我们可以拥有无数个不知疲倦的「诺奖得主」,全天候攻关那些最难的科学问题。 而实际上诺奖得主并不是几亿分之一那样珍贵,他们在能力和智力上大多是顶级大学教授的水平,但是因为概率和运气选对了方向,持续做了下去并拿到了结果。和他水平相当的人,他同样优秀的同僚们,也许在科研的平行宇宙中也获得了诺奖。但是无奈的是,具备顶尖大学教授并参与科研突破的人员还是不足,因此「遍历所有科研正确方向」的速度仍然很慢。 有了 AGI 之后,在能源和算力充分供给的情况下,我们可以有无限个「诺奖得主」水平的 AGI 在任何一个可能的科研突破方向进行纵深探索,技术的提升速度会快几十倍。技术的提升,会导致我们如今认为相当昂贵稀缺的资源,在 10 到 20 年间成百倍地增加,比如粮食产量、新材料、新药、高水准的教育等,获取这些的成本也将成倍下降,我们得以用更少的资源养活更多的人口,人均财富迅速增加。 全球 GDP 总量走势图,数据来源:世界银行 这听起来似乎有点耸人听闻,我们来看两个例子,这两个例子笔者在此前关于 IO . NET 的研报中也使用过: · 2018 年,诺贝尔化学奖得主弗朗西斯·阿诺德在颁奖仪式上才说道:「今天我们在实际应用中可以阅读、写入和编辑任何 DNA 序列,但我们还无法通过它创作( compose it )。」仅仅在他讲话的 5 年后,2023 年,来自斯坦福大学和硅谷的 AI 创业企业 Salesforce Research 的研究者,在《自然 - 生物技术》发表论文,他们通过基于 GPT3 微调而成的大语言模型,从 0 创造出了全新的 100 万种蛋白质,并从中寻找到 2 种结构截然不同、却都具有杀菌能力的蛋白质,有希望成为抗生素之外的细菌对抗方案。也就是说:在 AI 的帮助下,蛋白质「创造」的瓶颈突破了。 · 而在此前,人工智能 AlphaFold 算法在 18 个月内,把地球上几乎所有的 2.14 亿种蛋白质结构都做了预测,这项成果是过往所有人类结构生物学家工作成果的几百倍。 变革已经发生,而 AGI 的降临会进一步加快这个过程。 另一个方面, AGI 的降临带来的挑战也是非常巨大的。 AGI 不但会替代大量的脑力劳动者,如今被认为「受 AI 冲击较少的」体力服务业者,也会随着机器人技术的成熟和新材料的研发带来的生产成本降低而受到冲击,被机器和软件替代的劳动岗位占比会迅速提高。 届时,两个曾经看起来非常遥远的问题会很快浮出水面: 1.大量失业人口的就业和收入问题 2.在 AI 无处不在的世界,如何分辨 AI 和人类 而 Worldcoin \ Worldchain 正在尝试提供解决方案,即用 UBI (全民基本收入)系统为大众提供基本收入,用基于虹膜的生物特征把人和 AI 进行区分。 实际上,给全民发钱的 UBI 并非没有现实实践的空中楼阁,芬兰、英格兰等国都进行过全民基本收入的实践,而加拿大、西班牙、印度等国亦有政党正在积极提案推进相关的实验。 而基于生物特征识别 + 区块链的模式进行 UBI 分配的好处在于这个系统的全球性,对人口有更广泛的覆盖,此外还可以基于通过收入分配拓展而来的用户网络,构建其他商业模式,比如金融服务( Defi )、社交、任务众包等,形成网络内商业的协同,这也正是 AGI 降临带来的冲击效应的对应标的之一是 Worldcoin – WLD ,其流通市值为 10.3 亿 $,全流通市值为 472 亿 $。 叙事推演的风险和不确定性 本文与 Mint Ventures 之前发布的诸多项目和赛道研究报告不同,对于叙事的推演和预测具有较大的主观性,请读者仅将本文内容作为一个发散性的讨论,而不是预测未来的预言。笔者上述的叙事推演面临很多不确定性,导致猜想错误,这些风险或影响因素包括但不限于: 能源方面: GPU 更新换代造成的能耗速降 尽管围绕 AI 的能源需求猛增,但以英伟达为代表的芯片厂商正在通过不断的硬件升级,以更低的功耗提供更高的计算能力,比如在今年 3 月英伟达发布了集成了两个 B200 GPU 和一个 Grace CPU 的新一代 AI 计算卡 G B200 ,其训练的性能是上一代主力 AI GPU H100 的 4 倍,推理的性能是 H100 的 7 倍,需要的能耗却只有 H100 的 1/4。当然尽管如此,人们希望从 AI 中获得的力量渴望远远没到尽头,伴随着单元能耗的下降,随着 AI 应用场景和需求的进一步扩张,总能耗可能反而是上升的。 数据方面: Q * 计划实现「自产数据」 Open AI 内部一直存在一个传闻中的项目「 Q *」,该项目在 Open AI 发给员工的内部信息被提到过。根据路透社援引 Open AI 内部人士的看法,这可能是 Open AI 在追寻超级智能 / 通用人工智能( AGI )道路上取得的一项突破。 Q * 不但能够凭借抽象能力解决以前从未见过的数学问题,还能够通过自我创造用于训练大模型的数据,而无需现实世界的数据喂养。如果该传言为真, AI 大模型训练受限于优质数据不足的瓶颈将被打破。 AGI 降临: OpenAI 的隐忧 AGI 降临的时点是否真的如马斯克所说,会在 2025 年到来尚不得而知,但这只是一个时间问题。但 Worldcoin 作为 AGI 降临叙事的直接诶受益标的,最大的隐忧可能来自 OpenAI ,毕竟其是公认的「 OpenAI 影子代币」。 5 月 14 日凌晨, OpenAI 在春季新品发布会展示了最新的 GPT - 4o 与另外 19 个不同版本的大语言模型在综合任务得分中的表现,仅从表格来看, GPT - 4o 得分 1310,视觉上似乎比后几名高出了一大截,但从总分来看,其仅比第二名 GPT 4 turbo 高了 4.5%,比第四名谷歌的 Gemini 1.5 Pro 高了 4.9%,比第五名 Anthropic 的 Claude 3 Opus 高了 5.1%。 从 GPT3 .5 初登场时震惊世界的时刻仅仅过去了一年多, OpenAI 的竞争对手们已经追到了非常接近的位置(尽管 GPT5 尚且没有放出,并预计在今年发布), OpenAI 未来是否已经能保持自己的行业领先位置,这个答案似乎正在变得模糊。如果 OpenAI 的领先优势和统治地位被稀释乃至赶超,那么 Worldcoin 作为 OpenAI 的影子代币的叙事含金量也会下降。 此外,除了 Worldcoin 的虹膜认证方案之外,越来越多的竞争对手也开始进入这个市场,比如手掌扫描 ID 项目 Humanity Protocol 刚刚宣布以 10 亿美元估值完成 3000 万美元新一轮融资, LayerZero Labs 也宣布将在 Humanity 上运行,并加入其的验证者节点网络,使用 ZK 证明对凭证进行身份验证。 结语 最后,笔者虽然对 AI 赛道后续的叙事进行了推演,但 AI 赛道与 DeFi 等加密原生赛道不同,其更多是 AI 热潮外溢至币圈的产物,目前诸多的项目就商业模式而言并未跑通,很多项目更像是 AI 主题的 Meme (比如 Rndr 类似于英伟达的 meme , Worldcoin 类似于 Open AI 的 meme ),读者应审慎看待。 来源:金色财经lg...