全球数字财富领导者

CoNET｜客户端｜旧版｜｜

掣肘中国版ChatGPT的三大难题

2023-02-20 17:27:12

金色财经

关注

获赞

粉丝

喜欢

— 分享 —

摘要：国内要想诞生一款ChatGPT，难度在哪些方面？

ChatGPT需要通过不断获取大量数据进行自主学习并完成迭代的AI支持，对于AI技术的长期发展与积累储备有着很高的要求，因此这并不如其它APP一般，能从软件方向上进行简单的借鉴与复制转而本土化。

尽管国内目前已经有类似于ChatGPT的对话机器人运用在智能客服的场景中，但相较之ChatGPT自然语言处理的能力与接近99.9%的理解力，差距还是很大的。

在NLP已成全球化大势所趋时，国内要想诞生一款ChatGPT，难度在哪些方面？

硬件与成本

OpenAI开发ChatGPT是基于GPT-3.5的预训练语言模型和人类反馈强化学习技术，核心是谷歌推出的自然语言处理transformer的算法和架构。

ChatGPT在对语言进行分析和理解时，需要有参数支持，类似于神经网络，初代ChatGPT就有超过40亿个参数，而上一代GPT-3已经有1750亿个参数。

国内实验室目前做过最大的模型是有10亿个参数，ChatGPT是国内模型的175倍。根据微软的数据，OpenAI可提供给ChatGPT的算力包括28.5万个CPU和1万个英伟达A100GPU，按照GPT-3的1750亿个参数来算，训练一次需要耗费1200万美元，每日电费在5万美元，初始投入就达到8亿美元。

微软宣布下一步将ChatGPT嵌入搜索引擎Bing中，完成单次搜索需要超过50万台服务器和410万个GPU，而这些成本总和将超过1000亿美元。

虽然国内已经有很多可以支持计算的处理器，比如寒武纪、飞腾、海光等，但最大的问题是做不了高制成，仅仅能做到28nm，这会导致芯片密度降低，能耗更高，因此在芯片数量上就要比英伟达多出2到3倍。

而由于美国的限制，英伟达的A100对我国禁运，即就是在CPU和GPU的连接之间无法用到NVLink，这就导致数据传输时间将变长，效率变低，这对于训练自然语言模型时的影响非常大。

无论从算力支持还是训练成本上看，目前国内要实现ChatGPT都是比较困难的。

此次ChatGPT能迅速在全球范围内爆火，离不开微软在云计算基础设施方面的发展和积累，国内互联网大厂腾讯阿里等也都有自己的云计算平台，但追赶微软还需很长一段时间。

数据与语料

ChatGPT能在自然语言处理、文本生成和人机对话上有惊人的表现，除去硬件支持外，大量数据获取下的语料库建立也是很关键的。

训练语言模型一定需要不断给予其更新的文本内容，帮助模型学习语言和获取知识，以此来构建语料库，能理解自然语言并生成高质量准确的答案文本。

获得不断更新的文本内容，就需要通过网站和自有平台进行信息爬取，Common Crawl是美国的非营利性组织，负责抓取网络并免费向公众提供其档案和数据集，这个组织就是ChatGPT语料库建立的主要来源之一。

英文语料库的建立对于ChatGPT而言并不难，除去上述组织，还有全球各地的网站、Bing搜索引擎、维基百科等等，但是对于中文来说就并不像英文那么容易。

一方面是在英文网站和搜索引擎内中文信息与资料并不全面，在ChatGPT国内热度起来后，就有网友表示自己在ChatGPT里所问的中英文问题回答的质量并不一致。另一方面，国内互联网如百度、微信、360、科大讯飞等在简体中文之外获取的信息有限，而像知乎、微博、网文网站等同样缺乏非简体中文的内容全面性。

因此无论是国内自然语言模型的训练还是对于ChatGPT，中文语料库都是亟待解决的问题。

应用场景

既然开发ChatGPT的硬件成本如此高，即使未来国内有科技公司完成了中国版ChatGPT的开发，如何应用在生活中体现其商业价值也是需要考虑的。

正如上文所述，国内目前已经有企业尝试在智能客服环节运用类ChatGPT的人机对话AI机器人，但仅仅是将传统对话模式简单移植到AI平台，并没有改变用户与产品之间的交互方式，也没能提高产品服务的效率，无法体现AI的实际价值。

这就与传统燃油车转型新能源只是简单的油改电一样，很多可预见的实际应用场景，目前的发展方向还都只是用AI取代真人来完成，比如文案工作、新闻工作、设计师、人力资源、音乐创作等，但从学习的方式、工作的模式、沟通的便捷性等多个方面没有变革性的改变。

并且由于中文语料库的匮乏，即便自然语言模型能胜任以上场景，但结果与效率上也并不能令人满意。

因此，国内ChatGPT的商用暂时也就无法实现。

ChatGPT的出现，让AI产业的发展与AI开发模式明确了未来的方向，在自然语言模型能更加全面，AI产业链更加完善的未来，中国版ChatGPT也许会很快到来。

来源：金色财经

1. 欢迎转载，转载时请标明来源为FX168财经。商业性转载需事先获得授权，请发邮件至：media@fx168group.com。

2. 所有内容仅供参考，不代表FX168财经立场。我们提供的交易数据及资讯等不构成投资建议和依据，据此操作风险自负。

掣肘中国版ChatGPT的三大难题

硬件与成本

数据与语料

应用场景

24小时热点

交易商排行

掣肘中国版ChatGPT的三大难题lg...

硬件与成本

数据与语料

应用场景

24小时热点

交易商排行

掣肘中国版ChatGPT的三大难题