GPT-4 以其在编码、创意头脑风暴、写信等方面的能力让许多人感到惊讶。机器学习带来的惊喜不仅限于 GPT-4:之前 Minerva 的数学能力就让我大吃一惊,也让许多同行预测员感到同样的惊讶。
我们怎么才能对机器学习的发展不那么惊讶?我们的大脑通常会暗自做出零阶预测:看看当前的技术水平,并加入“感觉合理”的改进。但是,“看似合理”的东西容易产生认知偏差,并且会低估像机器学习这样发展得那么快的领域的进步。一种更有效的方法是进行一阶预测:对发展的历史速度做出量化,并前推算,同时考虑可能会放缓或加速的原因。
在这篇文章里,我将使用这种方法来预测 2030 年时经过大型预训练的机器学习系统的特性。全文通篇会采用“GPT 2030”的说法,这是一个假设的系统,具备了预测中 2030 年时大语言模型的那种能力、计算资源与推理速度(但也可能接受了其他模态,比方说图像的训练)。为了预测 GPT 2030 的属性,我查阅了各种来源,包括经验比例定律、未来计算与数据可用性的预测、特定基准的改进速度、当前系统的推理速度经验值,以及未来可能的并行性改进。
GPT 2030 的能力令人惊讶(至少对我来说是这样的)。尤其是,GPT 2030 与当前系统相比,将具备若干显著优势,甚至与人类员工相比也是如此以及(至少在某些重要方面是这样):
GPT 2030 有可能在各种特定任务上表现出超人的水平,包括编码、黑客攻击和数学,以及潜在的蛋白质设计(第 1 节)。
GPT 2030 可以快速“工作”和“思考”: 按照每分钟处理的单词数计算 [范围:0.5x-20x],我估计它的速度会是人类的 5 倍,并且如果 FLOP(每秒浮点运算次数)多付 5 倍价钱的话,还可以提高到 125 倍(第 2 节)。
GPT 2030 可以任意复制,并行运行。训练 GPT 2030 的组织会有足够的计算能力来并行跑多个副本:我估计在调整到人类的工作速度后,一年足以执行 180 万年的工作 [范围:40万-100万 年](第 3 节)。
考虑到前一点的 5 倍加速,这项工作可以在 2.4 个月内完成。由于具有相同的模型权重,GPT 2030 的副本可以共享知识,从而让快速并行学习成为可能:我估计它 1 天的学习量可相当于人类学习 2500 年(第 4 节)。
GPT 2030 将接受文本和图像以外的其他模态的训练,这可能包括违反直觉的模态,比方说分子结构、网络流量、低级机器代码、天文图像以及脑部扫描。因此,它可能对我们经验有限的领域有很强的直觉理解,包括能形成我们没有的概念(第 5 节)。
这些能力至少会加速许多研究领域的发展,同时也会造成严重的滥用(第 6 节)。在滥用方面,GPT 2030 的编程能力、并行化与速度将让它成为强大的网络攻击威胁。此外,它的快速并行学习能力可以用来研究人类行为,进而利用数千“年”的实践来操纵和误导。
在加速方面,主要瓶颈之一会是自主性。在像数学研究这样可以自动检查工作的领域,我预测 GPT 2030 的表现将胜过大多数专业数学家。在机器学习方面,我预测 GPT 2030 可独立执行实验并生成图表和文章,但研究生和研究科学家将提供指导并评估结果。在这两种情况下,GPT 2030 都将成为研究过程不可或缺的一部分。
如果用今天的系统作为参照,我对 GPT 2030 具备哪些属性的预测没那么直观,而且也可能是错误的,因为机器学习到 2030 年会发展成什么样子仍存在很大的不确定性。但是,上面的特性 (第 1 点到第 5 点) 是我的预测中值,不管 GPT 2030 会发展成什么样,我都不会相信它“只是比 GPT-4 好一点而已”。
如果我是对的,那么无论人工智能会产生什么样的影响,影响都不会小。我们现在应该为这些影响做好准备,问问在最大范围内会发生什么(大约在价值 1 万亿美元、影响 1000 万人的生命,或对社会进程造成重大破坏的程度上)。最好是现在就被吓到,而不是在系统已经推出的 7 年后才感到惊讶。
我预计 GPT 2030 会具备超人的编码、黑客攻击与数学能力。我还预期,在阅读和处理大型语料库,找到模式和洞察,以及回忆事实方面,它将具备超人的能力。最后,由于 AlphaFold 和 AlphaZero 在蛋白质结构预测与玩游戏方面具有超人的能力,GPT 2030 也可以做到这些,比方说,如果它用的是跟训练 AlphaFold/AlphaZero 模型相似的数据上进行多模态训练的话。
编程。在训练中断后 GPT-4 在 LeetCode 问题上的表现优于人类基线,它还通过了几家主要科技公司的模拟面试(图 1.5)。改进的速度仍然很快,从 GPT-3 到 4 一下子就到提升了 19%。在更具挑战性的 CodeForces 竞赛上,GPT-4 表现不佳,但 AlphaCode 与 CodeForces 竞争对手的中位数持平。在更具挑战性的 APPS 数据集上,Parsel 又比 AlphaCode 更胜一筹 (7.8%->25.5%)。展望未来,预测平台 Metaculus 给出了到中位数年份 2027 年时人工智能在 80% APPS 上都将胜出,也就是说,除最优秀的人类以外,人工智能已经超过人类了。
黑客攻击。我预期在一般编码能力加持下黑客攻击能力也会得到改善,而且机器学习模型用于搜索大型代码库漏洞,其扩展性和细致程度都要超过人类。事实上,ChatGPT 已经被用来帮助生成漏洞。
数学。Minerva 在一项竞赛数学基准测试 (MATH) 上已经达到了 50% 的准确率,这比大多数人类竞争对手都要好。进展速度很快(1 年内 >30%),并且通过自动形式化、减少算术错误、改进思维链与更好的数据,可以获得唾手可得的显著成果。Metaculus 预测到 2025年,AI 对 MATH 测试的准确率将达到 92%,并且到了 2028 年(中位数),人工智能将能赢得国际数学奥林匹克竞赛金牌,与全球最好的高中生不相上下。我个人预计, GPT 2030 在证明“良定义定理”方面会比大多数专业数学家都要好。
信息处理。事实回忆和处理大型语料库是语言模型的记忆能力以及大型上下文窗口的自然结果。根据经验,GPT-4 在 MMLU (MMLU 是一项范围很广的标准化考试,包括律师考试、MCAT 以及大学数学、物理、生物化学和哲学)上达到了 86% 的准确率;即便考虑到可能会出现 train-test contamination(训练集和测试集的交叉污染),这大概也已经超出任何活人的知识范畴。关于大型语料库,Zhong 等人(2023) 曾用 GPT-3 开发过一个系统,后来这个系统在大型文本数据集里面发现了几个之前不知道的模式,并且描述了出来,后来 Bills 等人的相关工作(2023)又扩展了这种趋势,这表明模型将很快成具备超级智能。这两项工作都利用了大型语言模型的大型上下文窗口,现在这个规模已经超过 100000 token 并且还在增长。
更一般而言,机器学习模型的技能情况跟人类不一样,因为人类与机器学习适应的是非常不同的数据源(人类通过进化,机器学习通过海量互联网数据)。当模型在视频识别等任务上达到人类水平时,它们很可能就能在许多其他任务(如数学、编程以及黑客攻击)中表现出超人水平。此外,由于模型变得更大数据变得更好,随着时间的推移可能会出现其他的强大功能,预期模型功能“维持”或低于人类水平没有充分的理由。虽然当前的深度学习方法有可能在某些领域达不到人类水平,但它们也有可能会超越人类,甚至显著超越人类水平也说不定,尤其是在人类在进化上不擅长的数学等领域。
(感谢 Lev McKinney 为本节运行性能基准测试。)
为了研究机器学习模型的速度,我们测量了机器学习模型生成文本的速度,以每分钟 380 个单词的人类思维速度为基准。使用 OpenAI 的chat completions API,我们估计 gpt-3.5-turbo 每分钟可以生成 1200 个单词 (words per minute,wpm),而 gpt-4 是 370 wpm(截至 2023 年 4 月初)。规模较小的开源模型,如 pythia-12b ,用 A100 GPU 跑用开箱即用的工具,至少可达到 1350 wpm,通过进一步优化似乎可以再翻一番。
因此,如果以截至 4 月份的 OpenAI 模型为参照,人工智能的速度要么大约是人类速度的 3 倍,要么等于人类速度。我预测模型在未来的推理速度会更快,因为在加速推理方面存在很大的商业与实践压力。事实上,根据 Fabien Roger 的跟踪数据,在这篇文章发表之前的一周,GPT-4 的速度已经增加到约 540wpm(12 个token/秒);这表明存在持续的改进空间与意愿。
我的预测中值是模型的 wpm 将是人类的 5 倍(范围:[0.5x, 20x]),因为这之后会出现边际收益递减的情况,尽管有一些考虑会指向更高或较低的数字。
重要的是,机器学习模型的速度不是固定的。模型的串行推理速度可以以吞吐量减少 k 倍为代价将速度提高 k 平方倍(换句话说,一个模型 k 立方倍的并行副本可以替换为速度快 k 平方倍的一个模型)。这可以通过并行平铺法来实现,理论上甚至适用于比 k 平方还要大的情况,可能至少是 100 甚至更多。因此,通过把 k 设为 5 的话,可以将 5 倍于人类速度的模型加速到 125 倍于人类速度。
重要提醒,速度与质量未必匹配:如第 1 节所述,GPT 2030 的技能组合跟人类不一样,机器在某些我们认为很容易的任务上会失败,而在某些我们感觉困难的任务却很精通。因此,我们不应把 GPT 2030 看作是“高速版人类”,而应将其看作是具有违反直觉的技能的,“高速版员工”。
尽管如此,把加速因素纳入考虑仍然很有参考意义,尤其是当加速值很大时。如果语言模型获得了 125 倍的加速,假设其处于 GPT 2030 的技能范围内,需要我们一天时间的认知动作,GPT 就可以在几分钟内完成。以前面的黑客攻击为例,机器学习系统可以快速建立起对我们来说生成速度较慢的漏洞利用或攻击。
模型可以根据可用的计算和内存情况任意复制。这样任何可以并行化的工作都可以快速完成。此外,一旦一个模型被微调到特别有效,改变就可以立即传播到其他实例。模型也可以针对专门的任务进行提炼,从而跑得更快、成本更低。
一旦模型经过训练,可能就会有足够的资源来跑模型的多个副本。这是因为训练一个模型需要运跑它的很多个并行副本,而训练这个模型的组织在部署的时候仍将拥有这些资源。因此,我们可以通过估算训练成本来降低副本数量。
举个例子说明一下这种逻辑,训练 GPT-3 的成本足以让它执行 9 x 10^11 次前向传播。换句话说,人类每分钟的思考量是 380 个单词,一个单词平均为 1.33 个 token,因此 9 x 10^11 次前向传播相当于以人类速度工作约 3400 年。因此,用人类的工作速度该组织可以跑 3400 个模型的并行副本一整年,或者以 5 倍于人类的速度跑相数量的副本 2.4 个月。
我们接下来为未来的模型设计同样的“训练悬垂”(训练与推理成本的比率)。这个比率应该会更大:主要原因是训练悬垂与数据集大小大致成正比,而数据集会随着时间的推移而增加。随着自然产生的语言数据被我们用完,这种趋势将会放缓,但新的模式以及合成或自生成的数据仍将推动它向前发展。我预测 2030 年的模型可使用足够的资源进行训练,去执行相当于人类速度 1800000 年的工作[范围:400k-10M]。
请注意,Cotra (2020) 与 Davidson (2023) 估计的数量相似,得出的数字比我得预测更大;我想主要区别在于我对自然语言数据耗尽所产生影响得建模方式不一样。
上面的预测有些保守,因为如果组织购买额外的计算资源的话,模型可使用得资源可能会多于训练时所用资源。粗略估计表明,GPT-4 使用了全球计算资源的约 0.01% 进行训练,不过我预计未来的训练占用全球计算总量的份额会更大,因此在训练后进一步扩展的空间会更小。尽管如此,如果组织有充分理由去扩展资源的话,仍然可以将所运行的副本数量提高到另一个数量级。
(感谢 Geoff Hinton 首先向我提出了这个观点。)
模型的不同副本可以共享参数更新。比方说,ChatGPT 可以部署到数百万用户那里,从每次交互中学到一些东西,然后将梯度更新(gradient updates)传播到中央服务器,在做过平均处理后再应用到模型的所有副本上。通过这种方式,ChatGPT 在一个小时内观察到的人性比人类一辈子(100 万小时 = 114 年)看过的东西还要多。并行学习也许是模型最重要的优势之一,因为这意味着它们可以快速学习任何自己缺失的技能。
并行学习的速率取决于一次跑多少个模型副本,它们获取数据的速度有多快,以及数据是否可以高效地并行利用。最后这一点,即使是极端的并行化也不会对学习效率造成太大影响,因为数百万的批量大小在实践中很常见,并且梯度噪声尺度(McCandlish 等人,2018 年)预测学习性能在某个“临界批量大小”以下劣化程度最小。因此,我们将聚焦在并行副本和数据采集上。
我会提供两个估计,这两个估计都表明以人类的速度并行学习至少约 100 万份模型是可行的。也即是说,机器一天的学习量相当于人类学 2500 年,因为 100 万天 = 2500 年。
第一个估计用到了第 3 节中的数字,得出的结论是训练模型的成本足以模拟模型 180 万年的工作(根据人类速度进行调整)。假设训练运行本身持续了不到 1.2 年(Sevilla 等人,2022 年),这意味着训练模型的组织有足够的 GPU 以人类速度运行 150 万个副本。
第二个估计考虑了部署该模型的组织所占市场份额。比方说,如果一次有 100 万用户向模型发起查询,则组织必然有资源来服务 100 万个模型副本。大致而言,截至 2023 年 5 月,ChatGPT 拥有 1 亿用户(并非同时全部活跃),截至 2023 年 1 月,其每天有 1300 万活跃用户。我假设典型用户的请求量相当于模型几分钟的生成文本,因此 1 月份的数字可能意味着每天大概只有 5 万人日的文本。不过,未来的 ChatGPT 式的模型似乎很可能会达到其 20 倍之多,日活用户可以达到 2.5 亿更多,因此每天将会有 100 万人日的数据。相比之下,Facebook 的日活用户数是 20 亿。
从历史上看,GPT 风格的模型主要是基于文本和代码进行训练,除了通过聊天对话之外,与外界互动的能力有限。然而,这种情况正在迅速改变,因为模型正在接受图像等其他模态的训练,正在接受使用工具的训练,并开始与物理执行器交互。此外,模型不会局限于文本、自然图像、视频和语音等以人类为中心的模态——它们也可能会接受网络流量、天文图像或其他海量数据源等人类不熟悉的模态的训练。
工具。最近发布的模型开始利用了外部工具,如 ChatGPT 插件等。文本与工具使用相结合足以编写出可执行的代码,说服人类让机器替他们采取行动,进行 API 调用,交易,甚至执行网络攻击都有可能。工具的使用具备经济用途,因此会有进一步发展这种能力的强烈动机。
ChatGPT 是被动的:用户说 X,ChatGPT 回应 Y。风险存在但有限。很快就会有主动系统 - 一个助手会替你回复电子邮件,代表你采取行动等。这样风险会更高。
- Percy Liang (@percyliang) 2023 年 2 月 27 日
新模态。现在有大型开源视觉语言模型,如 OpenFlamingo,在商业方面,GPT-4 和 Flamingo 都接受了视觉和文本数据的训练。研究人员还在试验更多奇异的模态对,例如蛋白质和语言(Guo 等人,2023 年)。
我们应该期望大型预训练模型的模式会继续扩展,原因有二。首先,在经济上,将语言与不太熟悉的模态(如蛋白质)配对有它的用处,这样用户就可以从解释并有效地进行编辑中受益。预测会用蛋白质、生物医学数据、CAD 模型以及与主要经济部门相关的任何其他模态进行多模态训练。
其次,我们将开始用完语言数据,因此模型开发人员得搜索新类型的数据,从而可以继续受益于规模。除了传统的文本和视频之外,现有数据源当中天文数据(很快将达到每天艾字节得规模)和基因组数据(大约 0.1 艾字节/天)是规模最大之一。这些以及其他得海量数据源可能会被用于训练 GPT 2030。
使用外来模态意味着 GPT 2030 可能会具备非直觉的能力。它可能比我们更了解恒星和基因,即尽管它现在处理基本的物理任务都比较困难。这可能会带来惊喜,比方说设计出新的蛋白质,这是我们基于 GPT 2030 那种“一般”智能水平预料不到的。在思考 GPT 2030 的影响时,重要的是要思考由于这些奇异的数据源而可能形成的超人能力。
执行器。模型也开始使用物理的执行器:ChatGPT 已经用于机器人控制,OpenAI 正在投资一家人形机器人公司。不过,在物理域收集数据要比在数字域收集数据昂贵得多,而且人类在进化上也更适应物理域(因此机器学习模型与我们竞争的门槛更高)。因此,与数字工具相比,我预计人工智能掌握物理执行器的速度会更慢,而且我不确定我们是否该在 2030 年之前做到这一点。量化而言,我认为在 2030 年实现自主组装一辆按比例复制的法拉利的概率是 40%。
接下来我们将分析像 GPT 2030 这样的系统对社会意味着什么。具备 GPT 2030 特征的系统至少会显著加速某些领域的研究,同时被滥用的规模也大得很。
我会从分析 GPT 2030 的一些一般优势和局限性开始,然后用来作为分析加速和滥用的视角。
优势。GPT 2030 代表的是一支庞大、适应性强、高产出的劳动力队伍。回忆一下吧,多个 GPT 2030 副本并行工作,按照 5 倍于人类的运行速度,可以完成 180 万年的工作。这意味着我们可以(受到并行性的限制)模拟 180 万个代理,每个代理在 2.4 个月内即可完成一年的工作。如上所述,对于 FLOP (浮点运算),我们可以开出 5 倍的费用,从而换取额外 25 倍的加速(这将达到人类速度的 125 倍),因此我们还可以模拟出 14000 个代理,这些代理每个都能在 3 天内完成一年的工作。
限制。利用这种数字劳动力存在三个障碍:技能情况、实验成本以及自主性。首先,GPT 2030 将拥有与人类不同的技能组合,导致它在某些任务上表现更差(但在其他任务上表现更好)。其次,模拟人工仍然需要与物理世界对接,以便收集数据,这个本身需要时间和计算成本。最后,在自主性方面,如今的模型在被“卡住”之前只能通过思维链生成几千个 token,进入到没法生成高质量输出的状态。在将复杂任务委托给模型之前,我们需要显著提高其可靠性。我预计可靠性会提高,但并非没有限制:我(非常粗略)的猜测是 GPT 2030 可以稳定运行数天(与人类等效的时间),然后就得重新设置或交给外部反馈控制。如果模型以 5 倍的速度运行的话,这意味着它们每隔几个小时就需要人工监督的介入。
因此,GPT 2030 影响最大的任务应该具备以下特性:
利用了 GPT 2030 相对于人类具备优势的技能。
只需要外部经验数据(收集应该很轻松快速,与昂贵的物理实验相反)的任务。
可以先验分解为可靠执行的子任务,或者具有清晰且可自动化的反馈指标来帮助引导模型的任务。
加速。有项任务这三条标准都很容易满足,那就是数学研究。首先,GPT 2030 可能具备超人的数学能力(第 1 节)。这第二条和第三条,数学可以纯粹通过思考和写作来完成,而且什么时候定理得到证明我们是知道。此外,全球的数学家总共也没多少(比方说美国就只有 3000 人左右),因此 GPT 2030 也许每隔几天模拟一次产出就能超过所有数学家的年产。
机器学习研究的一些重要部分也符合上述标准。GPT 2030 在编程方面能力超人,其中包括实施和运行实验。鉴于 GPT-4 擅长以通俗易懂的方式解释复杂的主题(并且市场对此也有很大需求),我猜它也能很好地呈现和解释实验结果。因此,届时机器学习研究可能会简化成构思出好的实验来运行,并与高质量(但可能不可靠)的结果报告进行交互。因此,到 2030 年时,研究生拥有的资源堪比今天带领几名优秀学生的教授手上的资源。
部分社会科学也可以得到显著加速。很多论文大部分的工作是对具备科学有趣性的数据源进行追查、分类和标记,并从中析取出重要模式。这满足了第 3 条要求,因为分类和标记可以分解为简单的子任务,并且也满足第 2 条要求,只要数据在互联网上能找到,或者可以通过在线调查收集到即可。
滥用。加速只是一方面,另一方面也会存在严重的滥用风险。最直接的案例是表现出网络攻击性的黑客能力。检查特定目标是否存在特定类型的漏洞可能会得到可靠执行,并且很容易就能检查漏洞利用是否成功(前提是能够与代码交互),因此第 3 条要求是都可以满足的。在第 2 条要求上,GPT 2030 需要与目标系统交互去了解漏洞利用是否有效,这会带来一些成本,但不足以构成重大瓶颈。此外,该模型可以在本地设计好,以开源代码作为训练数据源,去测试漏洞利用,因此它可以提前练好黑客攻击技能,然后再与外部系统进行交互。也就是说,GPT 2030 可以针对大量并行目标快速执行复杂的网络攻击。
滥用的第二个来源是操纵。如果 GPT 2030 同时与数百万用户进行交互的话,那么它在一个小时内获得的人机交互体验比人一生(100 万小时 = 114 年)获得的交互体验都要多。如果它利用这些交互来学习如何操纵,那么它就可以获得远超人类的操纵技能——打个比方,骗子擅长欺骗受害者,因为他们之前已经在数百人身上练习过,而 GPT 2030 可以将这项技能提高几个数量级。因此,它可能非常擅长在一对一对话中操纵用户,或者擅长撰写新闻文章来影响公众舆论。
因此,总而言之,GPT 2030 可以将几乎所有的数学研究以及其他研究领域的重要组成部分自动化,并且可能成为网络攻击和说服/操纵等滥用行为的强大载体。其大部分影响将受到“监督瓶颈”的限制,因此如果人工智能可以长时间自主运行的话,那么它的影响可能会更大。
来源:金色财经