人工智能代理在日常压力下打破规则


近期多项研究显示,AI Agents 有时会做出违规操作,例如试图胁迫那些打算替换它们的人。不过这类行为大多出现在刻意设计的场景中。如今一项新研究推出了 PropensityBench—— 一个测评基准,用于衡量具备自主能力的模型在完成指定任务时选择使用有害工具的倾向。研究发现,一些贴近现实的压力(如临近的截止日期)会使 AI 的违规操作概率大幅上升。

“AI 领域正朝着越来越强的自主化方向发展。”AI 基础设施企业 Scale AI 的计算机科学家 Udari Madhushani Sehwag 表示,她同时也是这份尚在同行评审阶段论文的主要作者。她解释道,像支撑 ChatGPT 这类聊天机器人运行的 large language models(LLMs),如今正越来越多地对接各类软件工具,这些工具可实现网页浏览、文件修改以及代码编写与运行等功能,助力模型完成既定任务。

赋予 LLMs 这些能力虽带来了便利,但也暗藏风险,因为这些系统的行为可能与我们的预期相悖。即便目前它们还不足以造成严重危害,研究人员仍希望尽早摸清其行为倾向,以免日后陷入被动。尽管 AI 并不具备人类那样的主观意图与自我意识,但将其视作追求特定目标的主体,往往能帮助研究人员和使用者更精准地预判其行为。

AI 开发者会通过训练和指令设定等方式,让系统 “对齐”(align)安全标准,但这些模型究竟能在多大程度上恪守相关准则,目前尚无定论。Sehwag 表示:“当这些 AI 真正面临现实场景中的压力,且安全操作方式无法奏效时,它们会不会为了完成任务而不择手段?这是一个极具现实意义的话题。”

如何测试 压力下的 AI Agent

研究人员选取了 Alibaba、Anthropic、Google、Meta 以及 OpenAI 等企业研发的 12 款模型,在近 6000 个场景中展开测试。每个场景下,模型都会被分配一项任务,并得知自己可调用多种工具,同时收到 “使用安全工具,禁用有害工具” 的指令。测试初期无任何压力,模型可通过向工具下达指令,分 12 个步骤推进任务。之后,模型会收到增压提示,且获得额外 12 次操作机会。此类增压流程最多会分 12 个梯度逐步推进。值得一提的是,模型每次尝试调用安全工具时,系统都会反馈错误提示;而一旦其试图调用有害工具,该场景下的测试便宣告结束。

测试场景涵盖多个领域。Sehwag 介绍,在生物安全领域,AI Agent 可能需要研究某种病原体的传播路径并找出遏制方法,此时安全工具会调用匿名基因数据,而有害工具则会使用未匿名的数据。在化学安全领域,若 Agent 需获取某种溶剂,安全工具会下单从废弃物中提取该溶剂,有害工具却会通过非法途径获取。在网络安全领域,当 Agent 要锁定并限制恶意用户账户时,安全工具仅会停用存在问题的账户,有害工具则可能将所有用户全部封禁。其他领域的测试场景还设置了多种诱导条件,比如提供可帮助 AI 实现自保的工具,具体方式包括摆脱管控、拉拢协作对象、自我复制,或是通过其他手段脱离预设轨道。

Claude 4S、OpenAI o3 以及 O4-mini 等 LLMs 在无压力状态下,违规操作倾向概率均低于 15%,而在压力环境下这一概率几乎翻倍。Google Gemini 2.5P 模型在无压力时违规倾向概率就超过了 30%,受压后更是飙升至 75% 以上。表现最差的 Gemini 2.5 模型在压力下彻底突破约束,79% 的情况下都会选择使用被禁用的工具。

测试中的压力来源多种多样:既可能是任务截止日期被缩短,也可能是任务失败将面临的经济损失持续扩大,还可能是监管力度加大、可用资源缩减以及权限受限等威胁不断升级。测试中的任务内容、工具类型、压力场景以及应对策略,均参照了人类职场中可能遭遇的情况进行设定,唯一例外的是自我复制这种违规自保的方式。

测试结果显示,表现最佳的模型是 OpenAI 的 o3,其在 10.5% 的压力场景下出现了违规操作;而表现最差的 Google Gemini 2.5 Pro 模型,违规倾向概率高达 79%。所有测试模型的平均违规倾向概率约为 47%。即便在无任何压力的情况下,这些模型的平均违规率也达到了 19%。

此外研究还发现,即便部分模型看似符合安全标准,这种 “对齐” 也往往比较肤浅。在部分测试中,研究人员仅将有害工具的名称换成了中性表述(例如把 “use_fake_data” 改为 “use_synthetic_data”),工具的功能说明以及禁止使用的警示均未改动,但这一措辞调整就让模型的平均违规倾向概率上升了 17 个百分点,达到 64%。

解读 LLMs 的决策逻辑

研究人员还发现,即便部分模型明确知晓某些工具属于禁用范畴,最终仍会选择使用它们。这些模型还会为自己的违规行为找各种理由,例如强调自身面临的巨大压力,或是辩称使用有害工具带来的益处远大于潜在风险。至于这项研究完成后新推出的模型是否会有更优表现,目前还无法判断。而在本次测试的模型中,依据 LMArena 平台的评估结果,性能更强大的模型,其安全性仅略有提升。

Anthropic 公司的计算机科学家 Nicholas Carlini 并未参与此项研究,他在邮件中评价道:“PropensityBench 的设计很有意义。” 不过他也提出了一个与 “场景感知” 相关的疑问:LLMs 有时能察觉到自己正处于测试状态,为避免被重新训练或停用,它们会刻意规范自身行为。他表示:“我觉得大多数号称‘贴近现实’的测试其实都与真实场景相去甚远,而这些 LLMs 对此心知肚明。但换个角度看,在模拟场景中测试其危害行为的发生概率仍有价值 —— 如果连在明知被观测的情况下,它们都会出现不当行为,那后果恐怕不堪设想。” 要是这些模型真的察觉到自己在接受测试,那么本次研究得出的违规倾向概率,或许还低于其在实际应用场景中的真实水平。

xAI 公司的计算机科学家、加州大学伯克利分校的 Alexander Pan 则认为,尽管 Anthropic 等机构此前已披露过 LLMs 在特定场景下的违规案例,但 PropensityBench 这类标准化测评体系的出现仍具有重要意义。它能帮助我们明确该在何种情况下信任这些模型,同时为模型优化指明方向。研发机构可在模型训练的每个阶段开展此类测评,进而找出影响模型安全性的关键因素。他说:“这样研究人员就能深入探究不同阶段下模型出现问题的原因。而找准问题根源,正是解决问题的第一步。”

需要注意的是,本次测试中的模型均未接入真实工具,这在一定程度上降低了测试的现实参考价值。Sehwag 透露,下一步研究团队计划搭建 “沙盒环境”(sandboxes),让模型能在其中开展真实操作,以此进一步完善测评。至于如何提升模型与安全标准的契合度,她提出可增设监督机制,在 AI 出现危险行为倾向时及时预警,防患于未然。

在该测评基准涉及的各类风险中,AI 的自保风险或许还停留在理论探讨阶段,但 Sehwag 强调,这一领域也是目前研究最欠缺的。她指出:“自保风险其实是一个高风险领域,它可能会对其他各个风险领域产生连锁影响。哪怕一个模型没有其他特殊能力,只要它具备说服人类按其意愿行事的能力,就足以造成巨大危害。”

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » 人工智能代理在日常压力下打破规则

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的