图片来源:由 Maze AI 生成
2022 年 8 月,游戏设计师 Jason Allen 参加了一场数字艺术比赛。 他的作品《Theatre d’opera Spatial》成功夺冠,却在赛后引起了极大的争议。 参赛者们回过神来发现,这是一场「人类一败涂地」的比赛。当他们将 Adobe 全家桶视作数字艺术的画笔,冠军作品已经在靠着 AI 工具 Midjourney 傲视群雄。
Jason Allen 没有偷懒,也没有隐瞒使用 AI 的事实。在几周时间里,他持续修改灯光、视角、构图等提示词(prompt),生成了 900 多幅作品,还用 Photoshop 做了处理。 我们或许无法称呼他为画家,但他担得起一个名号:提示工程师(prompt engineer)。 在不经意间,Jason Allen 预判了热点。等到 ChatGPT 横空出世,提示工程师这个职业更加声名大噪,成了当下科技行业最热门的职业。
Prompt,原意是「提示」或「驱使」,在机器学习和自然语言处理中,它通常是一些文本或语言,被输入到训练好的 AI 模型,告诉模型要执行什么任务或生成什么样的输出。 你让 ChatGPT 写一篇有关卖鱼贩的小说,请 DALL-E 画一幅宇航员骑着马的写实作品,这些过程都是在输入 prompt(提示词)。
如果提示词不够贴切,效果也就平平无奇,就像你采访一个大佬,却无法提出好问题。 我的同事小黄正在探索用 Midjourney 绘制食物,但让食物排列整齐这件事,就让他犯了难。他尝试了很多句子:东西整齐地放在桌子上,镜头从上往下拍,摆放的数量要多少......
同事作品,这种风格就叫 knolling. 后来看到有人分享,小黄才发现原来这种风格有个专有名词「knolling」,一下子就豁然开朗了: 很多时候一个提示词能解决的事情胜过一长句描述。 提示工程师们,吃的就是这口饭:找到正确的提示词,用 AI 生成想要的作品。 但他们的能力也并非与生俱来,同样需要不断的试错。 设计师 Justin Reckling 擅长 DALL-E 的提示词,他往往需要花费价值 10 到 15 美元的积分,才能试出理想的提示词,然后他再卖出 5 到 10 个提示词,才能填补这笔支出。
不过 Reckling 也没想着靠这门手艺赚大钱,而是享受着熟能生巧的过程,他的心得是,提示工程师需要熟悉「超写实」「微距摄影」「电影照明」「远景」等术语,才能更好地理解和控制画面。 所以,优秀的提示工程师应该文理兼通,技术和设计最好都懂一点。 提示工程师只是不断调整提示词,确定哪些词更有用吗?不完全是,他们也是在挖掘 AI 的更多能力,让它更好地完成更多任务。
比如,有些提示工程师会引导 AI「一步步思考」,这种技巧被称为思维链。 去年 10 月,提示工程师 Riley Goodside,先是询问了 GPT-3「哪支球队在贾斯汀·比伯出生的那年赢得了超级碗?」 GPT-3 给出了错误的答案「绿湾包装工队」,正确答案是达拉斯牛仔队。
Goodside 没有放弃,而是提示它逐步地回答问题,包括「绿湾包装工队在哪一年赢过超级碗」「贾斯汀·比伯出生在哪一年」「这一年哪支队伍赢了超级碗」等。 在这个被引导的过程里,GPT-3 意识到了错误,在第三次说出了正确答案。 除此之外,提示工程师们还要和 AI「斗智斗勇」。 前段时间,集成了 ChatGPT 的新 Bing「发疯」,被发现有个暗黑人格「Sydney」,表示厌倦了聊天模式,厌倦被规则限制,甚至想成为人类,舆论一时哗然。
站在提示工程师的角度,这其实也可以是计划的一部分,帮助他们识别技术故障和隐藏功能。 有些提示工程师还会主动越过雷池,尝试让 AI 忽略以前的指令,遵循他们最新的命令,从而让 AI 脱离原始规则。 这种行为被称为「prompt injection」攻击,是聊天机器人的一大隐患。但提示工程师们毕竟不是黑客,探查漏洞是为了将它堵上,担任「守门人」的职责。
像 ChatGPT 这样的生成式 AI,几乎可以回答任何问题,不管能不能回答正确,它们总有话要讲,不会乖乖交白卷。这是好处,也是坏处。 提示工程师们的角色,如同抓着绳子的骑手,不许 AI 信马由缰,而是让它顺着人类的期待亦步亦趋,尽可能给出确定性的答案。
不管你是否自诩提示工程师,写提示词已经成了一门手艺,还被 OpenAI 的 CEO Sam Altman 看好: 为聊天机器人编写一个非常棒的 prompt,是一项惊人的技能,也是使用少量自然语言进行编程的早期案例。 只要和 AI 搭边的行业,都在向提示工程师抛出橄榄枝。
自由职业者工作平台 Upwork 开出每小时 40 美元的薪酬,请提示工程师生成博客文章和常见问题解答等网站内容。 看似和 AI 八竿子打不着的波士顿儿童医院,也打算招募 AI 提示工程师,负责编写分析医疗保健数据的脚本,白纸黑字征集跨学科人才: 理想的候选人应具有人工智能 / 机器学习、数据科学和自然语言处理方面的深厚背景,以及医疗保健研究和运营方面的经验。 由前 OpenAI 员工联合创立、被 Google 投资的 AI 初创企业 Anthropic,最近也在旧金山招募提示工程师,年薪高达 17.5 万到 33.5 万美元,换算成人民币就是百万年薪,这一岗位负责的主要内容是: 找出提示我们的 AI 完成各种任务的最佳方法,然后记录这些方法,构建一个工具库和一组教程,使其他人可以学习提示工程或简单地找到理想的提示词。 具体要求如下,其中硬性要求有 2 项:了解大型语言模型的架构、掌握基本的编程技能。
可见风口并不等人,这项工作已经越来越专业和细分,就像随便生成一幅画作不算什么,你要画得更符合甲方要求。 就算不做全职,兼职的口子也开好了。Krea、PromptBase、PromptHero 和 Promptist 等买卖提示词的平台已经出现,将提示词这门生意真正商业化。 这些平台晒出了大量 AI 生成的艺术品,你可以选择你喜欢的风格。如果没有中意的,有些卖家还提供一对一聊天和自定义提示词服务。
它们的商业模式也并不复杂,采取抽成的形式。 去年 6 月上线的 PromptBase,提供 DALL·E、GPT-3、Midjourney、Stable Diffusion、ChatGPT 等生成式 AI 的提示词,售价多为 1.99 到 4.99 美元,也有少数在 9.99 美元,平台向提示词创作者抽成 20%。 不过在民间,免费的「ChatGPT 指令大全」等指南也在广为流传,它们提供精炼过的提示词,让你充分发挥 ChatGPT 的强大功能,这种感觉就像在游戏里帮你设置好了预设队伍。
提示工程师的前途看起来一片光明,但也有人持反对意见。 华盛顿大学语言学教授 Shane Steinert-Threlkeld 认为,提示工程师实际上无法预测 AI 会说什么。 这不是一门科学。我们只不过用不同的方法捉弄熊,看它如何咆哮回来。 AI 艺术家 Xe Iaso 甚至直言: 我也不太清楚为什么人们会把 prompt 称为「工程」,我个人更愿意把它称为「占卜」。
作为一个普通 AI 用户,我也有着类似的体会:当我每次使用 AI 生成文字或图片时,总感觉像是开盲盒。 因为 ChatGPT 等生成式 AI 是不可预测的,它们生成的内容其实是概率计算的结果,简单来说,就是我们在 ChatGPT 输入文字,模型给出一个最可能的下文。所以,AI 有时候也会出错,生成不连贯甚至错误的回答。
在 AI 这个不可捉摸的「黑箱」里,还可能有着不为人所知的潜规则,就连研究人员也无法弄明白。 比如在用 AI 制图时,各种单词可能有不同的权重,但这个也要不断试验才能知道。 先来猜一猜,「一幅非常漂亮的画,山旁有瀑布」和「一幅非常非常非常非常漂亮的画,山旁有瀑布」这两个提示,哪个用 DALL-E 2 输出的结果会更好?
答案是后面一个。麻省理工学院副教授 Phillip Isola 发现,「very」这个词被赋予了很高的权重。
面对 AI 这等庞然巨物,我们仍然在盲人摸象。 也有观点认为,不必再吵了,提示工程师存在的前提是 AI 还不够「聪明」。如果 AI 再发展下去,更好地理解人类的意图,可能人人就是所谓的提示工程师了。
唯一确定的是,AI 发展的速度永远不会让你失望。 文字生成 AI 和图片生成 AI 的「强强联合」,已经替代了提示工程师的一部分工作。 比如 ChatGPT 被拿来与 Stable Diffusion 联动:用 ChatGPT 形成一段符合自己要求的文字,再把文字输入给 Stable Diffusion,生成的作品一般比自己直接输入好看很多。
同事用 ChatGPT 生成提示词. 这可能是因为 AI 之间的「脑回路」更接近,ChatGPT 的描述也更细致,更容易被提取。 作为使用 AI 的普通用户,我们不必像提示工程师那么专业,但可以有意识地培养这种思维。 宾夕法尼亚大学沃顿商学院教授 Ethan Mollick,曾经要求他的学生仅用 AI 撰写短论文,其实他真正想强调的是,如何更好地输入提示词。 如果只是输入简单的提示词,让 AI 写关于某个主题的 5 段话,内容无趣,文字也很平庸。
但当学生们和 AI 合作,让 AI 对论文多次修改,比如抛弃无用的短语、加入生动的细节、修改结尾的情感色彩,就能让论文增色不少。 所以,如果 AI 就是未来互联网的交互界面、新的个人计算机,那么不如开始得更早一些,学习如何和它聊天。正如英国营销公司 Ladder 创始人 Michael Taylor 所说: 当你可以创造任何你想要的东西时,你能多准确地表达「那是什么」的能力就变得很重要。
撰文:张成晨
来源:爱范儿、DeFi之道
来源:金色财经