也许很多人都有类似的经历:自己的亲爹亲妈,宁愿相信抖音上的营销号,而不愿意听你苦口婆心唱反调。营销视频那种风格令人感到愉快,且带着不容置疑的权威性的论调,确实很容易让人失去逻辑思维。当然,营销者的克星可能并不是真理,而是AI(误)。今天要介绍的这篇论文 Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions 中,来自普渡大学的研究人员用 517 个 Stack Overflow 问题测试了 ChatGPT,然后评估了人工智能到底是不是一个很好的答案来源,欲知答案如何,请看我们今天的阅读推荐内容:
首先是一个很悲观的结论:人工智能在某些方面沿袭了人类某些低质量回答(并不是指某乎那些编得鬼都不信的答案)的特点——(从语法上)看起来回答得很全面、滴水不漏,然而并不遵从事实。当然,如果你直接相信了这个结论,那一定程度上也说明你缺乏批判思维能力。我们要看看作者是如何得出这些结论的,就要仔细去审视一下研究的过程。
作者首先收集了 517 个 Stack Overflow(SO)问题,这些问题既包括了热门主题,也包含了许多并非热门的内容(用户关注度排名在所有问题里面排后10%)。问题的创建日期,大概一半是在2022年11月30日之前,一半在这个日期之后。总之就是保证这 517 个选择的问题具有广泛的代表性:
本文的第一和第二作者用选择的 517 个问题去向 ChatGPT 提问,然后对其答案进行评估。这里作者引入了一项技术——open coding,这是定性分析技术里面的一种特定的方法,编辑部也不懂,感兴趣的读者可以看看下面的参考链接,或者参考一下论文 An introduction to qualitative research(Beverley Hancock, Elizabeth Ockleford, and Kate Windridge. 2001. Trent focus group London)
https://uh-dcm.github.io/qualitative-research-and-computers/open-coding/
作者从正确性、一致性、全面性和简洁性(Correctness、Consistency、Comprehensiveness、Conciseness)四个方面对ChatGPT的答案进行评估。除此以外,作者还用了一个(可能我们平时没怎么听过的)工具 Linguistic Inquiry and Word Count (LIWC,注意这个工具名字里面就是有个and)来研究生成的答案的语言学特点(Linguistic Characteristic)。作者还对生成的文本进行所谓的情感分析也就是 sentiment analysis,借以评估 AI 生成答案的“讨喜程度”。
经过评估,作者展示了令人“惊喜”的结果:AI 生成答案的正确度,基本上和抛硬币差不多,这给用户带来的困扰可能比完全胡说八道更加严重,你甚至不知道到底要不要相信 AI 了……
如果考虑到问题的特点(热门程度、问题类型和是否最新),那么 ChatGPT 的答案准确率差别还挺受影响的:如果一个问题非常热门或者已经讨论了很久,意味着有更多的高质量答案,ChatGPT 就不太容易出错;而如果问题类型是那种比较难回答的(比如 how-to 类型的问题例如“如何越狱我的iPhone”),AI 生成的答案通常会非常啰嗦而不得要领。
然而作者指出,ChatGPT 比较好的一点是较少在一些事实性判断上出错,而在一些概念性的问题上则更容易“捣糨糊”。更重要的是,ChatGPT 是一个非常好的“文科生”,写作能力非常强,这一点上可以秒杀大部分理工男。尽管答案不一定正确,但是文本表达能力一流,而且情感态度很正面,往往更容易说服别人。反观我们很多技术论坛上的回帖留言(还是母语),连基本的词汇和语法都没法用好,还不如不要发出来。
作者还邀请了 12 位程序员来帮忙分析,让他们去阅读 ChatGPT 的答案,测试结果表明,首先大家很容易看出来 ChatGPT 这种“彬彬有礼”的套路式回答问题的语气:
但是,在 39.34% 的情况下,人类程序员也会被 ChatGPT 的(错误)答案给欺骗。幸运的是,如果把 ChatGPT 生成的答案和直接从 Stack Overflow 上找的答案都提供出来,人类还是在65.18%的情况下会选择后者,因为后者更加准确、简练,而且文风更随意(更像个人写的?或者说是“天然去雕饰”?)
讲了这么多,我们最后还是要更加警觉才行,虽然在这篇文章的研究中,人类还没有体现出对 ChatGPT 的回答的高度依赖。但是我们也要注意到这个测试的领域是非常“直男”的——局限在 Stack Overflow 的技术类问题问答上。如果换成其他一些不是那么直男癌的领域,恐怕 ChatGPT 那娓娓道来的文风和生成废话的高超技巧(你有没有看到《Yes Minister》)对人类的杀伤力要远远高过预期?
论文:https://arxiv.org/abs/2308.02312