转载自综合文汇网稿件 原文作者:沈湫莎
达观数据联合创始人文辉受邀文汇网解读ChatGPT
pixabay.com
编写代码、翻译小说、参加考试……2022年末,人工智能聊天机器人ChatGPT刷爆网络。一位互联网从业者“爆料”:现在几乎所有程序员都争先恐后去领略它的超高情商和巨大威力,ChatGPT输出的答案有时幽默、有时深刻,很难分清与他对话的究竟是人还是机器。ChatGPT由人工智能研究实验室OpenAI于11月30日推出。上线短短5天,用户数量已突破100万。由于太过火爆,OpenAI不得不暂时关闭了用户的测试入驻窗口。2016年3月,AlphaGo击败围棋世界冠军李世石,被视为人工智能发展历程中的一次里程碑事件。而今,ChatGPT再次掀起了一波人工智能发展应用的高潮。它究竟会给人类社会带来哪些深刻影响?人工智能的颠覆性应用即将来了吗?
擅长“丝滑”写作,有时也会“翻车”
科幻作家刘慈欣的艺术三部曲之《诗云》中曾经描绘过这样一个故事:外星人仰慕地球文学,但又苦于无法写出李白那样的诗句,于是他们用量子计算机将所有汉字的排列组合穷举出来,这之后,任何人写下的任何文字都能在外星人的“文学数据库”中找到。从某种程度上来看,GPT的技术路线与“诗云”类似。2017年,人工智能领域一篇重磅论文《transform(一种采用自注意力机制的深度学习模型)》横空出世。这篇论文用巧妙的计算模拟出任何两个词之间所有维度的潜在关系,这一模型影响了其后的人工智能研究。2018年,OpenAI推出第一代GPT,之后两年迭代了三个版本。2020年,GPT-3的问世在业界掀起不小的波澜。这是一个拥有1750亿参数、利用45万亿字节文本数据进行训练的人工智能算法模型。在它出现之前,世界上最大的语言模型是微软旗下的Turing-NLG,还不到两亿参数。“最新推出的ChatGPT大约相当于GPT的3.5版本。”国内领先的文本处理公司达观数据联合创始人文辉表示。尽管目前尚未有ChatGPT的相关论文披露,但人们可以从关于GPT的论文中了解到,GPT是通过文字接龙以及人工引导接龙反馈的模式训练这一语言模型的。比如,让GPT在“你好”后面接一个字,它在浏览了大量互联网信息后,会筛选出人类使用频率较高的字,如美、高、吗等,工程师给接“美”的标注“这是一个好答案”,手工标注几万条后,再输入到计算机模型中,创建出一个模拟老师的机器人模型,再让机器学习这一模型。
instructGPT阐述了如何训练GPT
总之,GPT每次输出的答案其实是一次概率分布,它能“丝滑”地写出美妙的文章或代码,却很可能在极简单的问题上“翻车”。比如,当你问它numbers(数字)这个单词有几个字母时,它有时会回答7,有时会回答9。
聊天之外,ChatGPT将会撼动谁?
ChatGPT上线的短短几天之内,它已经参加了美国高校的入学资格考试(SAT),成绩为中等学生水平;用《老友记》主角口吻创作了剧本对白;构思了简短的侦探小说……人们迫切地想要知道,它还会给我们带来多少惊喜?尽管这一机器人模型的名字中有chat(聊天),但受ChatGPT影响最大的,并非微信这样的聊天工具,而是搜索引擎。“许多人已经养成了同一个问题问一遍搜索引擎,再问一遍ChatGPT的习惯。”文辉说。虽然目前ChatGPT仍会出现“人工智障”的回答,或是反复横跳的立场,但它无疑是给民用AI的落地,以及下一代搜索引擎指明了方向。从发展趋势看,ChatGPT很可能会成人们的私人助理。你可以列出这周的工作关键词,让它写一篇工作报告;或者让它帮你订一张从上海到北京的机票;又或者模仿你喜欢的作家的口吻发一条网络信息……这些工作它都能胜任。或许,我们离人人配备一个处理文字的“AI小秘书”的时代已经不远了。
不过,ChatGPT也并非无所不能。由于它的答案不是从一篇文档中摘出来,而是由模型自生成,这使得它更容易“一本正经地胡说八道”。比如,当它按照你的要求生成一段代码,如果你对此并不熟悉,可能看不出其实通篇都是错;对于一些最新发生的事,比如阿根廷和法国谁能赢得世界杯冠军,传统搜索引擎可能几分钟后就能全网查询,但自生成结果则要慢得多。
图文并茂,生成式AI时代或已到来
刘慈欣在创作《三体》时未曾想到,如果那时有ChatGPT,罗辑在描述梦想中的女孩时,她的形象就会被自动生成出来。ChatGPT的能力已经涉及到AI模型之间的合作,毕竟引领了文字生图潮流的人工智能图像生成器DALL-E,也是出自OpenAI之手。
pixabay.com
“人工智能在几秒钟之内迅速生成图片、视频等创造性内容,业内普遍认为AI的下一个范式——生成式AI时代已经到来。”文辉说。在特定垂直领域,中国人工智能企业的AI智能也能与ChatGPT“掰掰手腕”。如今,金融、财税等行业的许多企业,都用上了达观数据的“智能写作”,达观数据基于大规模语言模型训练的生成式AI模型,可以理解数据、文本、图表、业务逻辑,基于用户需求自动生成业务文档,已在研报智能写作、基金报告生成、债券文档生写作、合同生成、财务报告生成等领域投入应用。