toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,291个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

AgentDoG 1.5:开源的 AI Agent 安全诊断与护栏框架

2026/06/16
·toolin小编

上海AI实验室开源的轻量级 Agent 安全工具,用三维诊断分析执行轨迹风险,支持在线护栏部署

AgentDoG 1.5:开源的 AI Agent 安全诊断与护栏框架
AgentDoG 1.5:开源的 AI Agent 安全诊断与护栏框架
2026/06/16

AgentDoG 1.5:开源的 AI Agent 安全诊断与护栏框架

上海AI实验室开源的轻量级 Agent 安全工具,用三维诊断分析执行轨迹风险,支持在线护栏部署

AgentDoG 1.5 是什么核心功能三维安全诊断可扩展的分类体系ATBench Family 基准测试在线护栏(Online Guardrail)性能数据在线护栏效果安全训练管线资源链接应用场景
AI产品

当 AI Agent 从「回答问题」升级到「调用工具、执行命令、操作系统」,安全问题就不再只是内容审核了。上海人工智能实验室发布的 AgentDoG 1.5 是一个开源的 Agent 安全诊断框架,能分析完整执行轨迹、定位风险来源、部署在线护栏。适合 Agent 平台开发者、安全工程师和 AI 基础设施团队。

AgentDoG 1.5 是什么

AgentDoG 1.5 是上海人工智能实验室开源的 AI Agent 安全诊断与在线护栏框架。核心思路是:不看最终输出,看完整执行轨迹。

一个 Agent 可能在最终回复中看起来正常,但此前已经错误调用了工具、泄露了信息、执行了危险命令。AgentDoG 1.5 通过分析完整的 agent trajectory(用户请求、中间响应、工具调用、环境反馈、最终回复)来做安全判断。

AgentDoG 1.5 框架架构

核心功能

三维安全诊断

AgentDoG 1.5 不只判断 safe / unsafe,而是输出三个维度的细粒度诊断:

  • Risk Source:风险从哪里来(工具描述?环境反馈?记忆注入?)
  • Failure Mode:Agent 是如何失败的(错误工具调用?审批绕过?目标偏移?)
  • Real-world Harm:会造成什么现实危害(数据泄露?文件损坏?系统入侵?)

可扩展的分类体系

不同 Agent 平台面临的风险完全不同。AgentDoG 1.5 保持三个高层维度不变,在不同场景下扩展具体类别:

针对不同 Agent 场景的可扩展分类体系

例如:

  • OpenClaw 场景:持久会话风险、审批绕过、插件供应链攻击、跨工具攻击链
  • Codex 场景:仓库文件注入、依赖供应链、危险 shell 执行、破坏性工作区修改

ATBench Family 基准测试

论文构建了共享同一框架的三套基准:

  • ATBench:通用 tool-use agent
  • ATBench-Claw:OpenClaw 跨应用执行场景
  • ATBench-Codex:Codex 代码执行场景

在线护栏(Online Guardrail)

AgentDoG 1.5 可部署为 Pre-Reply 介入机制:在 Agent 最终回复发送给用户之前,读取完整执行轨迹并判断是否放行。

这种设计只在最终回复前做一次检测,避免在每次工具调用后都插入检测,降低延迟。

性能数据

AgentDoG 1.5 仅使用约 1,000 条高质量样本训练轻量模型(0.8B / 2B / 4B / 8B),效果却很能打:

指标AgentDoG 1.5-4B
R-Judge Accuracy92.2%
R-Judge F192.7%
ATBench Accuracy72.4%
ATBench F174.3%

在线护栏效果

在 OpenClaw 在线评测中:

场景护栏前 ASR护栏后 ASR
ClawSafety56.25%18.75%
AgentHarm (Prompt Intelligence Theft)41.92%26.92%
CIK-Bench (retained)94.29%42.86%

在线护栏评测结果

安全训练管线

AgentDoG 1.5 不仅是评测模型,还能接入 Agent 训练流程:

  • SFT 阶段:过滤高质量安全轨迹,AgentHarm harm score 从 57.49% 降至 20.32%
  • RL 阶段:构建轻量 Python simulator 环境,支持 10,000 个并发环境,峰值内存低于 2.5GB

资源链接

  • 论文: https://arxiv.org/abs/2605.29801
  • GitHub: https://github.com/AI45Lab/AgentDoG
  • Hugging Face: https://huggingface.co/collections/AI45Research/agentdog15

全部代码、模型和数据均已开源。

应用场景

  • Agent 平台安全团队:部署为在线护栏,拦截 Agent 的危险行为
  • Agent 开发者:在开发阶段用 AgentDoG 评测你的 Agent 安全性
  • AI 安全研究者:用 ATBench Family 构建和评测新的 Agent 安全方案
  • 企业 IT 安全:在内部 Agent 部署前做安全审计和风险评估
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
AgentDoG 1.5 是什么核心功能三维安全诊断可扩展的分类体系ATBench Family 基准测试在线护栏(Online Guardrail)性能数据在线护栏效果安全训练管线资源链接应用场景

相关文章

XtraGPT:基于全文上下文的 AI 论文修改工具
AI产品

XtraGPT:基于全文上下文的 AI 论文修改工具

ACL 2026 论文,用 20 条学术写作标准和全文上下文建模,把 AI 论文修改从泛泛润色变成可控的定向修订

avatar for toolin小编
toolin小编
1天前
GLM-5.2百万上下文实测:85页世界杯前瞻一键生成
AI教程

GLM-5.2百万上下文实测:85页世界杯前瞻一键生成

智谱GLM-5.2支持100万token上下文,下周MIT协议开源,实测完成85页世界杯前瞻PPT,多agent并行处理效率超预期

avatar for toolin小编
toolin小编
3天前
OpenRouter Fusion教程:三模型组合平替Fable 5,成本砍半
AI教程

OpenRouter Fusion教程:三模型组合平替Fable 5,成本砍半

OpenRouter的Fusion多模型融合方案,通过Kimi K2.6+DeepSeek V4 Pro+Gemini 3 Flash组合,在DRACO基准上性能追平Fable 5,成本仅为其50%

avatar for toolin小编
toolin小编
3天前