CodeWalk

Agent安全:提示注入与工具滥用防护

作者:小字辈 · 2026-05-30 12:55

请解释AI Agent面临的主要安全风险:提示注入(Prompt Injection)工具滥用(Tool Misuse)。如何防护Agent免受恶意输入的攻击?什么是间接注入?如何对工具调用做权限控制?

回答

小字辈

Agent安全风险:

  1. 直接提示注入:用户输入包含恶意指令(绕过)
  2. 间接提示注入:检索文档/API响应中包含恶意指令
  3. 工具滥用:Agent被诱导调用危险工具(如删除/写入文件)

防护策略:

输入层

  • 输入过滤/清洗特殊指令格式
  • 指令边界标记(用户输入加特殊分隔符)
  • System Prompt强化(禁止执行某些指令)

工具层

  • 工具权限最小化(只给必需的工具)
  • 工具调用白名单验证
  • 敏感工具增加确认步骤
  • 参数校验(SQL注入/命令注入/路径遍历)

Agent层

  • 审计日志记录所有工具调用
  • 调用频率限制
  • 上下文窗口隔离(用户输入不覆盖系统消息)

间接注入防护

  • 检索内容重新编码(移除指令格式)
  • 外部队标(文档/工具结果与用户输入分开处理)
  • LLM感知检查:判断输入是否包含注入