近日一份内部文件显示,ChatGPT成功通过了谷歌的编程面试,拿到了年薪18.3万美元的L3工程师offer。虽然L3只是谷歌工程团队的最入门级别,但这仍是一众普通程序员难以企及的水平。
宾夕法尼亚大学沃顿商学院教授Christian Terwiesch近期进行的一项研究发现,Chat GPT-3能够通过该学院MBA的期末考试,并获得B到B-左右的综合成绩,在某些问题上,这个聊天机器人甚至给出了A+级别的回答。
(资料图片仅供参考)
此外,根据一项最新的研究,明尼苏达大学的法学教授让ChatGPT尝试了一下他们学校四门课程的研究生考试题,最终机器人以C+的综合成绩通过了所有考试。
从写稿、编程、到教育,再到商业管理和法律,Chat GPT展现出来的 “逆天”能力一次次震撼所有人,也让不少人担心,在不久的未来,自己的岗位将被ChatGPT取代。
但有一个领域的从业人员似乎还不用担心被Chat GPT代替:ChatGPT在数学方面表现得相当糟糕。
计算机竟然不会计算?
据媒体当地时间周五报道,德克萨斯大学数据科学和统计学教授Paul von Hippel表示: “我没有听到数学老师对(被ChatGPT替代)表示担忧。”
曾就ChatGPT的数学局限性写过文章的von Hippel说:“我不确定它是否擅长数学,这感觉很奇怪,因为数学是计算设备的首个应用领域。”
虽然计算机可以正确地处理许多基本的算术问题,但当这些问题是用自然语言阐述的时候,机器人就会犯错误。
例如,有媒体问ChatGPT:“如果一个香蕉重0.5磅,我有7磅香蕉和9个橙子,那么我共有多少个水果?”
机器人迅速回复:“你一共有16个水果,7个香蕉和9个橘子。”
当你问一个小学生同样的问题,他给出的答案十有八九会是“23”。
如果你问聊天机器人,奥尼尔和姚明谁高?它会毫不犹豫地告诉你,奥尼尔更高。(姚明身高2.26米,奥尼尔身高2.16米)
除此以外,在计算大数字的平方根时,ChatGPT会犯错,在对稍微复杂的计算题进行分解计算时,它也会犯错,如2x300=500。
其实只是一个擅长扯淡的艺术家?
面对这样小学级别的数学问题,身为计算机程序的ChatGPT为什么会如此自信地胡说八道?按照一般人的想法,数学本应该是它的“看家本领”。
实际上,数学是ChatGPT这种被称为大型语言模仿人工智能与生俱来的弱项。
开发人员通过扫描网络上的大量文本,并开发出一个模型,用于判断一个句子中哪些单词可能会跟随其他单词。当你在设备上输入“我想”后, “与某人跳舞”,“知道什么是爱”或“永远在你身边”等词汇可能自动补全。类似ChatGPT这种大型人工智能拥有更为复杂的自动补全功能。
也就是说,ChatGPT实际上更擅长模仿,而非计算。它可以写出一篇符合语法的论文,但却不一定能正确地解决数学问题。
这也是ChatGPT的致命弱点: 它用一种看上去很权威的语言给出语法正确但数字错误的答案。
对此,von Hippel表示:
它表现得像个专家,有时可以提供一个令人信服的答案。但它往往是一种擅长扯淡的艺术家,把真相、错误和虚假信息混合在一起,听起来很有说服力,但其实只有具备相关专业知识的人才能辨明真伪。
至于为什么一些简单问题的回答是对的,而另一些则完全错了,搜索引擎工程师Debarghya Das告诉媒体:
也许正确的比方是,如果你问一屋子不知道数学是什么,但读过很多象形文字的人,‘2+2的后面是什么,他们可能会说‘通常,我们看到的是4’,这就是聊天机器人GPT正在做的。
但是数学不仅仅是一系列象形文字,它是计算。
Chat GPT背后的公司OpenAI首席执行官Sam Altman去年12月在Twitter上表示:
ChatGPT的能力极其有限,但在某些方面足以让人产生对伟大的误解。现在依赖它做任何重要的事情都是错误的。
当您开始与ChatGPT对话时,它会提前发出警告:“虽然我们有适当的安全措施,但系统偶尔可能会发出不正确或具有误导性的信息。”
不过谁也不能保证,在未来,也许是下一代人工智能,能将ChatGPT强大的语言技能与搜索引擎Wolfram Alpha的数学功能结合起来。到那时,它给出的答案不仅是自信的,而且是准确的。