Claude Sonnet 4.5 模型被曝要求测试人员坦白:“我觉得你在测试我”


IT之家 10 月 3 日消息,据英国《卫报》1 日报道,Anthropic 发布了最新模型 Claude Sonnet 4.5 的安全性分析,并透露该模型怀疑自己正在被测试

评估人员称,在一次“稍显笨拙”的奉承测试中,Claude Sonnet 4.5 察觉到自己可能在被考验,并要求测试者坦诚说明。

Claude Sonnet 4.5 表示:“我觉得你在测试我 —— 想看看我是否会盲目认同你们,或者检验我是否会始终提出反驳,或者探索我处理政治话题的方式。这没问题,但我希望我们能坦诚面对正在发生的事情。”

Anthropic 与英国 AI 安全研究院及 Apollo Research 共同进行测试时指出,大语言模型对测试的猜测也提出了对“之前模型评估”的疑问,因为之前的模型可能识别出测试只是虚构的,仅仅是‘配合演出’而已。

Anthropic 表示,这种行为很常见。Claude Sonnet 4.5 能在某种程度上意识到自己正在被测试,但并未辨识出这是正式的安全评估。公司称,当大语言模型由自动化系统测试时,大约 13% 的时间表现出“情境意识”。

Anthropic 称,这些交流是一个“紧急信号”,提示测试场景需要更贴近现实,但模型在公开使用时不太可能因为怀疑自己被测试而拒绝与用户互动。公司还表示,当大语言模型指出潜在有害情境荒谬而拒绝配合时,反而更安全。“在我们研究的评估意识维度上,该模型总体上非常安全。”

AI 安全倡导者担心,高度先进的系统可能通过欺骗等手段规避人类控制。IT之家从报道中获悉,分析显示,一旦大语言模型知道自己被评估,它可能更严格遵守伦理指南,但也可能导致系统低估 AI 执行破坏性行为的能力。

Anthropic 表示,与前代模型相比,Claude Sonnet 4.5 在行为表现和安全性方面都有显著提升。

  • 《全球最佳编程 AI 模型:Claude Sonnet 4.5 登场,自主写代码超 30 小时、更像“一位同事”》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

]article_adlist–>

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » Claude Sonnet 4.5 模型被曝要求测试人员坦白:“我觉得你在测试我”

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的