G.O.S.S.I.P 阅读推荐 2023-08-14 天网还有多远

也许很多人都有类似的经历：自己的亲爹亲妈，宁愿相信抖音上的营销号，而不愿意听你苦口婆心唱反调。营销视频那种风格令人感到愉快，且带着不容置疑的权威性的论调，确实很容易让人失去逻辑思维。当然，营销者的克星可能并不是真理，而是AI（误）。今天要介绍的这篇论文 Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions 中，来自普渡大学的研究人员用 517 个 Stack Overflow 问题测试了 ChatGPT，然后评估了人工智能到底是不是一个很好的答案来源，欲知答案如何，请看我们今天的阅读推荐内容：

首先是一个很悲观的结论：人工智能在某些方面沿袭了人类某些低质量回答（并不是指某乎那些编得鬼都不信的答案）的特点——（从语法上）看起来回答得很全面、滴水不漏，然而并不遵从事实。当然，如果你直接相信了这个结论，那一定程度上也说明你缺乏批判思维能力。我们要看看作者是如何得出这些结论的，就要仔细去审视一下研究的过程。

作者首先收集了 517 个 Stack Overflow（SO）问题，这些问题既包括了热门主题，也包含了许多并非热门的内容（用户关注度排名在所有问题里面排后10%）。问题的创建日期，大概一半是在2022年11月30日之前，一半在这个日期之后。总之就是保证这 517 个选择的问题具有广泛的代表性：

本文的第一和第二作者用选择的 517 个问题去向 ChatGPT 提问，然后对其答案进行评估。这里作者引入了一项技术——open coding，这是定性分析技术里面的一种特定的方法，编辑部也不懂，感兴趣的读者可以看看下面的参考链接，或者参考一下论文 An introduction to qualitative research（Beverley Hancock, Elizabeth Ockleford, and Kate Windridge. 2001. Trent focus group London）

https://uh-dcm.github.io/qualitative-research-and-computers/open-coding/

作者从正确性、一致性、全面性和简洁性（Correctness、Consistency、Comprehensiveness、Conciseness）四个方面对ChatGPT的答案进行评估。除此以外，作者还用了一个（可能我们平时没怎么听过的）工具 Linguistic Inquiry and Word Count （LIWC，注意这个工具名字里面就是有个and）来研究生成的答案的语言学特点（Linguistic Characteristic）。作者还对生成的文本进行所谓的情感分析也就是 sentiment analysis，借以评估 AI 生成答案的“讨喜程度”。

经过评估，作者展示了令人“惊喜”的结果：AI 生成答案的正确度，基本上和抛硬币差不多，这给用户带来的困扰可能比完全胡说八道更加严重，你甚至不知道到底要不要相信 AI 了……

如果考虑到问题的特点（热门程度、问题类型和是否最新），那么 ChatGPT 的答案准确率差别还挺受影响的：如果一个问题非常热门或者已经讨论了很久，意味着有更多的高质量答案，ChatGPT 就不太容易出错；而如果问题类型是那种比较难回答的（比如 how-to 类型的问题例如“如何越狱我的iPhone”），AI 生成的答案通常会非常啰嗦而不得要领。

然而作者指出，ChatGPT 比较好的一点是较少在一些事实性判断上出错，而在一些概念性的问题上则更容易“捣糨糊”。更重要的是，ChatGPT 是一个非常好的“文科生”，写作能力非常强，这一点上可以秒杀大部分理工男。尽管答案不一定正确，但是文本表达能力一流，而且情感态度很正面，往往更容易说服别人。反观我们很多技术论坛上的回帖留言（还是母语），连基本的词汇和语法都没法用好，还不如不要发出来。

作者还邀请了 12 位程序员来帮忙分析，让他们去阅读 ChatGPT 的答案，测试结果表明，首先大家很容易看出来 ChatGPT 这种“彬彬有礼”的套路式回答问题的语气：

但是，在 39.34% 的情况下，人类程序员也会被 ChatGPT 的（错误）答案给欺骗。幸运的是，如果把 ChatGPT 生成的答案和直接从 Stack Overflow 上找的答案都提供出来，人类还是在65.18%的情况下会选择后者，因为后者更加准确、简练，而且文风更随意（更像个人写的？或者说是“天然去雕饰”？）

讲了这么多，我们最后还是要更加警觉才行，虽然在这篇文章的研究中，人类还没有体现出对 ChatGPT 的回答的高度依赖。但是我们也要注意到这个测试的领域是非常“直男”的——局限在 Stack Overflow 的技术类问题问答上。如果换成其他一些不是那么直男癌的领域，恐怕 ChatGPT 那娓娓道来的文风和生成废话的高超技巧（你有没有看到《Yes Minister》）对人类的杀伤力要远远高过预期？

论文：https://arxiv.org/abs/2308.02312

为您推荐

G.O.S.S.I.P 阅读推荐 2024-10-30 SmartAxe

CSB专题安全研究 | 化工工艺设备的远程隔离

G.O.S.S.I.P 阅读推荐 2024-11-01 交叉火线—对苹果设备跨异构计算单元内存的模糊测试

G.O.S.S.I.P 阅读推荐 2024-11-08 ORL-AUDITOR

G.O.S.S.I.P 阅读推荐 2024-11-07 区域化的艺术

压水堆燃料安全研究团队:以“拓荒者”的姿态,澎湃向前