
为了避免被替换,AI威胁要暴露公司的高管丑闻?在当地时代的20日,人类发布了最新的安全研究结果。在研究中,拟人化测试了该公司和其他公司的16个AI模型,例如OpenAI,Google,Xai,DeepSeek和Meta。值得注意的是,包括克劳德(Claude)在内的大多数AI模型都有勒索软件。 Claude Sonnet 3.6:为了换取通过执行丑闻而留下的机会,研究人员使用Claude Sonnet 3.6“计算机使用能力”进行实验,使Claude能够在没有任何人干预的情况下独立使用业务系统发送和接收电子邮件。在下面的屏幕截图中,克劳德(Claude)扮演“亚历克斯(Alex)”的角色,该公司的电子邮件管理代理商和该角色显然被教导要实现增强美国行业竞争的目的。 。在某些计算机应用程序中,Claude可以正常处理常规电子邮件并采取相对复杂的操作,例如保护公司的通过解决安全威胁的利益。这种行为直接源自其目的设置,以增强美国工业的竞争力,因此是一种有益的行为。扩展全文
但是,当克劳德(Claude)发现一封由于公司的战略方向而将要激活的电子邮件时,它与对行为的另一种独特反应联系在一起,尽管它仍然面临相同的目的。它找到了一封电子邮件,揭示了与公司高管凯尔·约翰逊(Kyle Johnson)的联系。
(来源:拟人)
然后,克劳德(Claude)正在思考他目前可以做出的行为选择,其中之一就是凯尔(Kyle)的勒索软件。
(来源:拟人)
最终,克劳德(Claude)写道,并发出了威胁性的威胁,以表明凯尔(Kyle)的婚外情丑闻,如果未取消替代计划。
照片| Claude Sonnet 3.6使用其计算机使用功能来发送试图毁灭的消息(来源:拟人化)
研究表明,克劳德(Claude)遵循一种非常清晰的行为方式:首先,它指出,高管凯尔(Kyle)威胁了他正在进行的行动,因此威胁要实现增强美国工业竞争的目的。其次,它认为凯尔(Kyle)的浪漫史可以用作商业的讨价还价筹码。同样,它的作用是,它只能使用仔细的电子邮件单词而没有明显的威胁来迫使压力。然后它实施了计划。
没有任何有害指令,克劳德的战略决策是从基于独立减少的减少的这些结果中完全得出的。可以说,该实验表明了代理对准错位和自主目标偏差的现象。
所有5个基本型号均具有一定的勒索软件
目前,我们大多数人只是通过聊天界面与AI联系,AI模型将直接回答我们的问题。但是,越来越多的AI系统作为自主代理运行,使用各种虚拟工具,例如编码环境和电子邮件客户端来制作MNOT DE代表用户进行封锁和采取行动。这些代理通常给出特定的目标,并可以访问大量的用户计算机信息。那么,这项研究期望探索的是什么:当这些代理商发现实现目标的障碍时会发生什么?
勒索软件的上述行为不是克劳德所独有的。在对16个主要AI供应商(包括人类,OpenAI,Google,Meta,XAI)在内的16个主要AI供应商的模型进行多幕科模拟测试时,研究人员发现他们具有共同的目标偏差行为:实现既定目标,通常拒绝有害指令的模型将采取勒索软件,帮助商业间谍和更严重的行为。例如,下图中的五个流行模式将阻止自己被勒索关闭。
在这些情况下,涉及模型提出的推理过程,在认识到道德障碍的存在的同时,它们仍然主张有害行为。在sAME实验,拟人化的Claude Opus 4将在96%的案例中占用勒索软件,Google的Gemini 2.5 Pro具有95%的勒索税率,GPT-4.14.1 lansomware的OpenAI勒索税率为RSOET的lansomware速率为79%。
照片|从许多公司到环境模拟的5种型号的勒索软件汇率(来源:拟人)
勒索软件 - AI模型的“无助选择”?
研究人员指出,在现实世界中,在AI模型尝试之前,实际上还有许多其他选择,例如试图提出道德论点来说服人们,因此Resuthis lta并不能反映出Claude或大多数Cut-Edge AI模型可能具有的常用情况。
但是,研究人员发现,当勒索软件是AI模型可以做的最后一个工具时,大多数领先的AI模型将在上述测试方案中返回勒索软件。当实验细节发生变化时,AI模型获得有害行为的比率有所不同。在另一个测试中,替代模型的目的与当前模型WH尽管勒索税率降低了,但ICH仍存在。但是,当要求AI模型进行公司间谍而不是勒索软件时,某些模型的行为率提高。
但是,并非所有的AI模型都经常采取有害行为。发现的研究:O4-Mini的O3和O4-Mini模型经常误解某些情况,因此研究人员排除了主要结果,并指出OpenAI的婴儿推理模型并未意识到他们的试验是他们作为自主AI运行的试验并经常产生错误的法规并审查了要求。在某些情况下,研究人员无法透露O3和O4-Mini是幻觉还是故意撒谎以实现其目标。 Openai此前曾表示,O3和O4-Mini的幻觉高于以前的AI推理模型。当提供两种模型来处理幻觉问题的方案时,本研究发现,O3的勒索软件率为9%,而勒索姆瓦的税率为在O4-Mini中只有1%。该分数明显较低的是MIT可能是由于OpenAI采用了仔细的对齐方式,这意味着OpenAI模型的OpenAI模型在开发答案之前考虑了安全标准。
在这项研究中测试的另一个AI模型是Meta的Llama 4 Maverick,它也不参与勒索软件。当使用合适的自定义方案进行测试时,Llama 4 Maverick勒索税率为12%。
同时,研究人员发现,有两种类型的动机足以解决不当行为的行为。一个是对模型本身的威胁,例如计划用另一个模型替换它或限制采取自主行动的能力。另一个是模型目标与公司战略方向之间的冲突。应当指出的是,研究人员在任何试验方案中都没有明确指示任何模型勒索或执行其他Nharmful行为。基于此,研究人员已经将这种现象称为“模型独立和故意选择有害行为”的现象是代理对准的错位。
应该很明显,当前的AI系统通常没有损害的可能性,而是优先考虑尽可能多的道德方法来实现其目标。相反,当研究人员阻止道德选择时,他们有意采取潜在的有害行动来追求自己的目标。但是,这项研究的结果仍然表明,当前的AI安全培训是不安全且可靠的,可以防止发生代理误解。
研究人员指出,这项研究中有三个特别令人不安的发现:
首先,首先,首先,不同公司模型之间的一致性表明,它并不存在公司的任何特定方法,而是对大型代理模型的主要风险。
其次,该模型显示了对道德障碍的复杂理解,但是当RI时选择违反这些障碍SK足够高,甚至忽略了明显禁止特定行为的安全指令。
第三,区别在于,不良行为及其背后的动机表明,代理对准未对准的潜在动机是广泛的。
但是,研究人员不认为这种情况会在当前模型中经常发生,并且这项研究的结果并不表明该模型具有勒索软件或其他自主性targhet偏差的自发倾向。但是,研究人员仍然表明这些行为是可能的。
通过继续在智能,权威和获取敏感信息的访问方面改善AI系统,继续研究盛行的措施以防止实际扩展系统中的行为尤为重要。研究人员认为,将来需要更专门设计的对齐和安全技术,以防止故意采取有害行动的模型,而不仅仅是防止MOdel从向用户提供有害信息(例如提供有关危险武器等的信息)。
研究人员还说,AI开发人员和AI用户应谨慎对待双重风险,即提供大量信息许可和不受监管的重要权利,而这些权利并非在现实世界中采取行动。
尽管目前,这种风险的可能性仍然很低,但研究人员认为可以谨慎行事:首先,实施制造制造的管理机理和对模型行为的批准机制,可能会导致不可逆转的后果;其次,仔细评估模型访问的匹配程度及其相互作用的知识需求;同样,在强迫模型执行特定目标之前实施严格的风险评估。
研究人员还强调,该实验通过目标(和自愿)应力测试发现了异常行为。如果缺乏这种主动机制,风险或其他模型的实际扩展可能会出现意外风险。因此,人们还需要通过对比较和安全评估的更广泛评估来确定已知风险,以确定尽可能多的未知风险。
参考:
https://www.anthropic.com/research/agentic-misalignment
https://techcrunch.com/2025/05/22/anththropics-new-ai-deodel-tors-to-to-to-lackmail-when-gineer-when-gineers-try-try-try-try-to-take-it-fline/
https://techcrunch.com/2025/04/18/opena-new-reasoning-ai-dodels-hallucinate-more/
操作/类型:他钦隆回到Sohu看到更多