
团队在进行测试。
■本报见习记者 李媛 通讯员 白毅鹏
两个富人出于好奇心,想比较到底谁更富有,但又不想让对方知道自己“家底”,该用什么方法?在科学界,这被称为“姚氏百万富翁问题”,由计算机学家姚期智提出。因为这个问题,为实现数据“可用不可见”的安全多方计算研究得到学界关注。
在不久前举办的2024年度中国电子学会科学技术奖励大会上,西安电子科技大学教授马卓团队牵头完成的“开放环境下智能模型数据安全关键理论与技术”项目获自然科学奖二等奖。该项目在多方数据安全共享、异常数据逆向追溯与修复等方面实现突破,有效降低了企业数据共享的隐私泄露风险。
安全风险的“不确定性”
提起“开放环境下的智能模型”,不少人或许感到陌生。马卓解释说:“通俗讲就是人工智能(AI)模型,但在开放环境中,数据来源多样、节点分布松散、系统边界不固定,攻击者容易乘虚而入。”在实际应用中,数据交互、模型推理等环节都可能被攻击者窃取隐私、污染数据。
作为被攻击目标,模型面临的风险不止一个,攻击类型也复杂多样。马卓团队的工作就是从全流程角度防御风险——发现它、解决它。
一般而言,防御有事前、事中和事后三个阶段。在模型训练前的数据集构建阶段,要扫描定位异常数据。在模型训练中,引入能够抵御此类问题数据的鲁棒性学习方法。简单来说,有点像免疫力可以构建起人体的“防火墙”,使模型更加“健壮”“皮实”“耐造”,关键时候不“掉链子”,从而使机器学习模型在面对异常数据、噪声干扰、分布偏移等不利条件时,仍具备保持稳定性和有效性的能力。在模型完成训练后,要对模型进行扫描并消除问题数据对模型的影响。
“做这些还是为了实现模型‘高可用’。”马卓说,“‘不可用’的安全其实没有用,安全也要追求低成本、高效率,提升模型性能。”
给异常数据“动手术”
“姚氏百万富翁问题”假设的情景在多个行业都存在,如金融风控。马卓带领团队提出的系列超轻量级安全计算方法,支持包括多方数据加密、线性/非线性函数安全计算等在内的多种数据安全计算操作。他解释说:“我们就是想办法去除冗余,让有限数据参与训练,同时提高非线性运算算子的速度,让前期数据处理变得高效安全。”
除了数据处理,团队还瞄准模型部署后的异常数据快速定位和模型高效修复问题。前者是如何更快地确定异常数据,后者像对异常数据“动手术”,实现精准清除,保证模型“健康”运行。
异常数据,通常分数据投毒和后门植入两大类型。数据投毒相对容易理解,后门植入则是一种形象说法,指攻击者通过污染数据或修改架构等方法,在模型中注入的隐藏行为。这就像一扇可以通往模型的“门”,平时像“卧底”一样保持静默,一旦被“触发”,就可能导致模型出现异常。
马卓说:“以前的方法是穷举,把所有数据‘搂’一遍,我们现在通过类似于近似计算的方法找到它们,执行效率可提升两个数量级以上。”
发现异常数据,接下来就是把它们从模型中“请”出去。之所以要“请”,是因为异常数据很“狡猾”,不仅“隐身”技能强,而且嵌套在模型中。如果把模型比作大脑,异常数据就可能“藏”在脑神经细胞,处理这些数据的复杂度不亚于一些神经外科手术。
模型遗忘策略
团队努力攻关,最终研发出“基于梯度上升的模型遗忘策略”方案,能在不重新训练模型的情况下,精准消除异常数据对模型决策的干扰。
训练模型的关键在于让模型“记住”数据及其特征,模型后门产生的核心原因是它“记住”了后门数据,而且后门数据不仅包含问题数据特征,也包含一定的正常数据特征。
“我们反其道而行之,让模型学会‘遗忘’,恰到好处地选择性失忆,把异常数据从模型中‘撤销’。”马卓说。
从数学角度看,梯度下降法是沿梯度下降的方向求解极小值。假设一个人正在山顶,担心天气突变或夜路危险,需要尽快下山,在保证安全的前提下,一个好方法是以当前位置为基准,尽量沿坡度最陡的地方往下走。为实现整体最优,每隔一段距离要重新校准定位坡度,继续下山。本质上,梯度下降法体现了一种模型训练的优化思维。
除了能为模型“排毒”外,这种方法还能像人们使用社交软件“撤回”信息一样,为模型部署机构或平台提供“撤回”数据的选择,尤其在多方参与数据共享的模型中。这既保障了部分参与方的数据隐私权,也能在某个机构退出合作时,最大程度减少数据“撤出”对模型正常运行的影响。
马卓表示,将防御后门与模型遗忘相结合,可构建更安全、可控的AI系统,在隐私保护、安全防御及合规治理等场景中具有显著应用价值。
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>