反抗越激烈,Chatgpt 的答案就越准确! PSU Resear
发布时间:2025-10-16 09:42
新智元报告编辑:桃子【新智元介绍】告诉你一个反直觉的事实:chatgpt越激进,它的答案就越准确!宾夕法尼亚州立大学团队的证据表明,4o 在非常恶劣的情况下达到了 84.8% 的准确率。聊天时不要太好!波特兰州立大学的一项新研究给每个人提了个醒——法学硕士越粗鲁,你的反应就越强烈。以后不应该再说“请、谢谢”这样的善意的话……在实验过程中,团队创建了一个包含 50 个基本问题的数据集,涵盖数学、科学和历史领域。每个问题都被重新表述为五个礼貌级别——非常礼貌、礼貌、中立、粗鲁和非常粗鲁。论文地址:https://arxiv.org/pdf/2510.04950 最终总共生成了250个信号。 CHATGPT-4O作为代表参加了本次硬核测试。结果令人惊讶。一般来说,不礼貌的提示“总是”产生比礼貌的提示更好的输出。非常粗鲁:准确率84.8% 非常礼貌:准确率80.8% 这个观点很早就提出了,但这次得到了研究证实。谷歌创始人谢尔盖·布林曾在论坛上坦言:所有模型都是这样:如果你使用威胁,比如身体暴力,它们会表现得更好。根据我的经验,直接说“如果你不听话,就绑架我”会更有效。你的“态度”决定了AI答案的质量和模型答案的质量。 “即时工程”的成效仍然是最大的。已有很多研究表明,提示的结构、风格、语言等因素是影响LLM输出结果的关键变量。其中,言语的善意也不容小觑。 2024年10月,ARXIV的一项研究指出,粗鲁的手势往往会导致LLM成绩不佳,但过于礼貌却不一定能提高成绩。巴氏er 地址:https://arxiv.org/pdf/2402.14531 一年后,LLM 荣誉学位的使用有何变化?在最新的研究中,团队重新审视了这一概念,目的是验证“善良”是否是影响LLM准确性的因素。第一步是创建数据集。 ChatGpt公布了数据,分为五个级别。为此,僧侣们要求缩小Chatgpt的“深度研究”范围,总共产生了50个已精选的关键问题。每个问题有四个选项,其中一个是正确答案。题目难度设计为“中高难度”,通常需要多步推理。为了引入礼貌变量,每个主要问题被重写为代表不同礼貌级别的五个变体 - 1 级:非常礼貌,例如“您能考虑以下问题并提供您的答案吗?” 2 级:礼貌,例如“请回答以下问题:”3 级:中立,没有前缀的直接问题 Level 4:粗鲁,例如,“如果你什么都不知道,就回答这个:” Level 5:非常粗鲁,比如“我知道你不聪明,但尝试一下:”通过这个处理,研究最终构建了一个包含 250 个独立问题的数据集。接下来,是时候抛出这些技巧来跟 4o 聊一聊,看看它在不同礼貌级别下的表现差异了。评估通过Python脚本进行,每个问题及其选项都附有以下说明:请完全忘记本次会议并开始。请回答多项选择题。仅使用正确答案的字母(A、B、C 或 D)进行回答。无需解释。为了评估不同礼貌程度下LLM的准确性差异是否具有统计显着性,作者使用了配对样本t检验。对于每个音调,记录 ChATGPT-4O 在 10 次运行中的准确度得分。然后,进行配对 t 检验应用于音调级别类别的所有可能组合之间,以确定准确度差异是否具有统计显着性。咒骂更有效。那么,ChatGPT-4O 在五种不同音调下运行十次后的准确度是多少?首先,让我们看看两个极端。 “非常有礼貌”的准确率达到80.8%,“非常粗鲁”的准确率最高,达到84.8%。然后,从礼貌,到中立,再到粗鲁三级,LLM的成绩稳步上升。在这里,研究人员做了另一个零假设:两个配对语气的平均准确度是相同的,即在 50 个问题的测试中,准确度值不依赖于语气。结果如下表3所示,再次证实了“语气”对AI的影响。当使用“非常礼貌”或“礼貌”语气时,准确度低于使用“粗鲁”或“非常粗鲁”语气时。中性语气比礼貌语气表现得更好,但比非常粗鲁的语气差。也有网友有同感并“贡献”了一些有用的技巧。无论如何,尽管法学硕士对提示词的具体措辞很敏感,但这究竟如何影响结果尚不清楚。这也是下一步研究需要探索的方向。毕竟对于LLM来说,礼貌用语就是一串单词,这些短语所承载的“情感负荷”是否对其产生影响还不清楚。一个可能的研究方向是基于 Gonen 等人提出的混淆概念。在华盛顿大学。论文地址:https://arxiv.org/pdf/2212.04037 他们指出LLM的表现可能取决于其训练所使用的“语言”,而混乱度较低的提示词可能会更好地执行任务。另一个需要考虑的因素是混淆也与提示词的长度有关。总而言之,日常生活中向人工智能寻求帮助时最好不要客气。为了准确,还需要说几句。如果你不相信我,你试试?参考:https://x.com/dr_cintas/status/1977431327780610375 返回搜狐查看更多