上周二,OpenAI 官宣 GPT-4 引起轩然大波,比其广受欢迎的前身 GPT-3.5 更可靠、更具创意。GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
大型语言模型的子弹不停在飞,ChatGPT 的职业“威胁论”也成为热议的焦点。例如,INSIDER 编制了一份被 AI 取代风险最高的工作清单,分别是技术工作(编码员、计算机程序员、软件工程师、数据分析师)、媒体工作(广告、内容创作、技术写作、新闻)、法律行业工作(律师助理、法律助理)、市场研究分析师、教师、财务职位(财务分析师、个人财务顾问)、贸易商、平面设计师、会计师与客户服务代理。
昨日,一篇由 OpenAI、OpenResearch 和宾夕法尼亚大学学者合著的论文发表在预印本网站 arXiv 上,以科学的方式研究了 GPT 究竟会对劳动力市场产生怎样的影响。这项研究采用一种新的评估方式,即根据职业与 GPT 能力的对应性来评估职业,结合人类专业知识和 GPT-4 的分类,从而探讨 GPT 可能对劳动力市场带来的影响。
为了理解 LLM 的能力及其对工作的潜在影响,这项研究应用的两项评估标准分别是:直接暴露(exposure),即 GPT 可以直接完成或帮助完成的任务;间接暴露,即通过 GPT 支持的软件和数字工具帮助完成的任务。
研究发现,大多数职业都表现出一定程度的 GPT 暴露,大约 80% 的美国劳动力可能至少有 10% 的工作任务会受到 GPT 的影响,而大约 19% 的工人可能至少有 50% 的任务受到影响。这种影响涵盖了所有工资水平,高收入工作可能面临更大的风险。
严重依赖科学和批判性思维技能的角色与 GPT 暴露呈负相关,而编程和写作技能与 GPT 暴露呈正相关。在工作中面临更高(更低)进入壁垒的工人往往会经历更多(更少)的 GPT 暴露。信息处理行业表现出高暴露,而制造业、农业和矿业表现出较低的暴露。
过去十年的生产力增长和总体 GPT 暴露之间的联系似乎很弱,这表明一个潜在的乐观情况,即未来大型语言模型的生产力增长可能不会加剧可能的“成本疾病”效应。
GPT 符合通用目的技术的三个核心标准:随着时间的推移,它们正在即兴发挥能力,有能力完成或帮助一组越来越复杂的任务和用例;GPT 本身可以对整个经济产生普遍影响;同时,GPT 所实现的互补创新——特别是通过软件和数字工具——可以在经济活动中广泛应用。
决定大型语言模型效用的关键因素是人类对它们的信任程度以及习惯。例如,在法律界,模型的有用性取决于法律专业人员是否能够信任他们的输出,而不需要核实原始文件或进行独立研究。技术的成本和灵活性、员工和公司的偏好以及激励措施也在采用基于大型语言模型的工具方面发挥着重要作用。
此外,由于数据可用性、监管质量、创新文化以及权力和利益分配等因素,大型语言模型在不同经济部门的采用将有所不同。因此,如果要全面了解员工和公司对大型语言模型的使用,需要对这些错综复杂的问题进行更深入的探索。一种可能性是,对于大多数任务来说,节省时间和无缝应用将比提高质量更重要。
总的来说,尽管 GPT 提高人类劳动效率的技术能力很明显,但重要的是要认识到社会、经济、监管和其他因素可能会影响实际的劳动生产率结果。随着能力的不断发展,GPT 对经济的影响可能会持续并增加,这给政策制定者预测和监管其发展轨迹带来了挑战。
来源:金色财经