提交AI工具提交

AgentDoG 1.5：开源的 AI Agent 安全诊断与护栏框架

2026/06/16

·toolin小编

上海AI实验室开源的轻量级 Agent 安全工具，用三维诊断分析执行轨迹风险，支持在线护栏部署

AgentDoG 1.5：开源的 AI Agent 安全诊断与护栏框架

AgentDoG 1.5：开源的 AI Agent 安全诊断与护栏框架

2026/06/16

AgentDoG 1.5：开源的 AI Agent 安全诊断与护栏框架

上海AI实验室开源的轻量级 Agent 安全工具，用三维诊断分析执行轨迹风险，支持在线护栏部署

AgentDoG 1.5 是什么核心功能三维安全诊断可扩展的分类体系 ATBench Family 基准测试在线护栏（Online Guardrail）性能数据在线护栏效果安全训练管线资源链接应用场景

当 AI Agent 从「回答问题」升级到「调用工具、执行命令、操作系统」，安全问题就不再只是内容审核了。上海人工智能实验室发布的 AgentDoG 1.5 是一个开源的 Agent 安全诊断框架，能分析完整执行轨迹、定位风险来源、部署在线护栏。适合 Agent 平台开发者、安全工程师和 AI 基础设施团队。

AgentDoG 1.5 是什么

AgentDoG 1.5 是上海人工智能实验室开源的 AI Agent 安全诊断与在线护栏框架。核心思路是：不看最终输出，看完整执行轨迹。

一个 Agent 可能在最终回复中看起来正常，但此前已经错误调用了工具、泄露了信息、执行了危险命令。AgentDoG 1.5 通过分析完整的 agent trajectory（用户请求、中间响应、工具调用、环境反馈、最终回复）来做安全判断。

AgentDoG 1.5 框架架构

核心功能

三维安全诊断

AgentDoG 1.5 不只判断 safe / unsafe，而是输出三个维度的细粒度诊断：

Risk Source：风险从哪里来（工具描述？环境反馈？记忆注入？）
Failure Mode：Agent 是如何失败的（错误工具调用？审批绕过？目标偏移？）
Real-world Harm：会造成什么现实危害（数据泄露？文件损坏？系统入侵？）

可扩展的分类体系

不同 Agent 平台面临的风险完全不同。AgentDoG 1.5 保持三个高层维度不变，在不同场景下扩展具体类别：

针对不同 Agent 场景的可扩展分类体系

例如：

OpenClaw 场景：持久会话风险、审批绕过、插件供应链攻击、跨工具攻击链
Codex 场景：仓库文件注入、依赖供应链、危险 shell 执行、破坏性工作区修改

ATBench Family 基准测试

论文构建了共享同一框架的三套基准：

ATBench：通用 tool-use agent
ATBench-Claw：OpenClaw 跨应用执行场景
ATBench-Codex：Codex 代码执行场景

在线护栏（Online Guardrail）

AgentDoG 1.5 可部署为 Pre-Reply 介入机制：在 Agent 最终回复发送给用户之前，读取完整执行轨迹并判断是否放行。

这种设计只在最终回复前做一次检测，避免在每次工具调用后都插入检测，降低延迟。

性能数据

AgentDoG 1.5 仅使用约 1,000 条高质量样本训练轻量模型（0.8B / 2B / 4B / 8B），效果却很能打：

指标	AgentDoG 1.5-4B
R-Judge Accuracy	92.2%
R-Judge F1	92.7%
ATBench Accuracy	72.4%
ATBench F1	74.3%

在线护栏效果

在 OpenClaw 在线评测中：

场景	护栏前 ASR	护栏后 ASR
ClawSafety	56.25%	18.75%
AgentHarm (Prompt Intelligence Theft)	41.92%	26.92%
CIK-Bench (retained)	94.29%	42.86%

在线护栏评测结果

安全训练管线

AgentDoG 1.5 不仅是评测模型，还能接入 Agent 训练流程：

SFT 阶段：过滤高质量安全轨迹，AgentHarm harm score 从 57.49% 降至 20.32%
RL 阶段：构建轻量 Python simulator 环境，支持 10,000 个并发环境，峰值内存低于 2.5GB

资源链接

论文: https://arxiv.org/abs/2605.29801
GitHub: https://github.com/AI45Lab/AgentDoG
Hugging Face: https://huggingface.co/collections/AI45Research/agentdog15

全部代码、模型和数据均已开源。

应用场景

Agent 平台安全团队：部署为在线护栏，拦截 Agent 的危险行为
Agent 开发者：在开发阶段用 AgentDoG 评测你的 Agent 安全性
AI 安全研究者：用 ATBench Family 构建和评测新的 Agent 安全方案
企业 IT 安全：在内部 Agent 部署前做安全审计和风险评估

作者

toolin小编

分类

AI产品

AgentDoG 1.5 是什么核心功能三维安全诊断可扩展的分类体系 ATBench Family 基准测试在线护栏（Online Guardrail）性能数据在线护栏效果安全训练管线资源链接应用场景

相关文章

星尘智能T1：8.99万元的人形机器人开卖

星尘智能T1：8.99万元的人形机器人开卖

星尘智能发布T1人形机器人，8.99万元起，绳驱本体+自研AI模型+具身OS三位一体架构，6月1日起发货

火山引擎AI Trust：三层架构守护Agent安全

火山引擎AI Trust：三层架构守护Agent安全

火山引擎发布AI Trust安全产品体系，覆盖模型可信、智能体可控、智能化安全运营，日检测调用量达100亿次

小米MiMo API永久降价99%，开发者怎么薅

小米MiMo API永久降价99%，开发者怎么薅

小米MiMo-V2.5系列API最高降价99%，Token Plan套餐容量提升5-8倍，全面对标DeepSeek价格