研究人员表示,三种核心机制可以消除大多数已知攻击类型。第一是指令与不可信数据之间的明确区分
谷歌、Gray Swan AI、EmbraceTheRed及多所大学团队于5月20日发表的一篇研究论文认为,保护AI代理需要重新思考整个系统的构建方式,而不仅仅是模型本身的行为。论文认为,将AI模型视为唯一的安全边界,会留下太多攻击面未被解决。研究人员表示,仅仅关注模型稳健性的工作是不够的。
该论文呼吁将人工智能代理视为更广泛系统中的不可信组件,借鉴计算机安全中既有的原则。研究人员写道:“该领域长期以来一直对抗强大的攻击者,并推动了数十年关于应对此类对手的原理和技术的研究。”他们认为同样的对抗框架也应适用于人工智能代理安全。
研究人员表示,三种核心机制可以消除大多数已知攻击类型。第一是明确区分指令和不可信数据,防止攻击者在代理处理的内容中嵌入恶意命令。如果没有这个边界,恶意行为者可以通过将指令隐藏在看似普通输入中的内容来劫持代理的行为。
第二种机制限制权限。论文主张,代理人应仅持有完成任务所需的最低权限,而非广泛的系统层级权利。第三种方式将敏感数据流的控制权完全转移出代理,置于系统层面,防止代理控将私人信息路由到未授权目的地。这三种控制措施结合起来,解决了研究人员所描述的大多数AI攻击场景的结构性根源。
这篇论文发布之际,人工智能代理正迅速被加密货币采用。Circle首席执行官杰里米·阿莱尔(Jeremy Allaire)今年一月预测,五年内将有数十亿人工智能代理代表用户运作。交易助理Banker于5月20日在识别出一名访问至少14个钱包的攻击者后,关闭了交易。安全专家推测,此次漏洞可能涉及“快速注入”(prompt injecting),这是论文直接涉及的攻击类型之一。
区块链智能公司Merkle Science的归因负责人Aaron Ratcliff表示,赋予AI代理钱包访问权限,为一个设计成无需信任的系统引入了一层信任。他说,如果构建得当,该设置是安全的,但列举了几个条件,包括能够捕捉抢先跑动、应用滑点限额、实时审计合约、沙盒提示、防止注入以及阻断中间人访问。Ratcliff表示,在代理人执行交易前,他需要所有这些能力的证明。
AI原生区块链平台Sahara AI联合创始人肖恩·任任表示,模型上下文协议是当前配置正确安全的标准,但他补充说用户仍应监控代理的每一个操作。他将这些协议描述为一个守门人,位于AI模型与用户钱包之间,限制代理人只能执行特定获批的操作,如检查余额或准备支付以供用户确认,而非自由转移资金。“该代理人只能执行具体且获批准的行动[...]而不是自由转移资金或更改钱包设置,“仁任任说。
人工智能代理目前被用于构建Web3应用、启动令牌,以及自主地与服务和协议交互。一些平台也在探索AI进行交易,自主决策与链上执行的结合吸引了开发者的关注和安全审查。研究人员表示,他们框架的目标是将保护传统软件系统的系统控制措施应用于这一新兴的自主代理类别。

