toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,182个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Syll:清华开源多模态全交互智能体框架

2026/05/31
·toolin小编

支持GUI、CLI、MCP三种操作方式,通过示教自动生成可复用技能,本地部署保护数据隐私

Syll:清华开源多模态全交互智能体框架
Syll:清华开源多模态全交互智能体框架
2026/05/31

Syll:清华开源多模态全交互智能体框架

支持GUI、CLI、MCP三种操作方式,通过示教自动生成可复用技能,本地部署保护数据隐私

Syll 是什么四大核心能力1. 统一 GUI、CLI 与 MCP/API2. 示教即技能3. 全程可审计追踪4. 本地模块化架构快速开始适用场景
AI产品

大多数桌面 AI Agent 只会一种操作方式——要么调 API,要么点界面。遇到 Photoshop、Blender 这类没有 API 的视觉软件,或者需要混合使用命令行和界面操作的真实工作流,它们就束手无策。清华大学智能视觉实验室开源的 Syll 框架把 GUI、CLI、MCP/API 统一进同一个执行回路,还支持"你做一遍,它就会了"的示教学习。

Syll 是什么

Syll 是一个多模态全交互智能体框架,由清华大学鲁继文教授团队与极佳视界联合开发。它的核心思路是:一个完整的桌面智能体应该能在不同的"操作表面"之间自然流转——看得见界面、点得到按钮、跑得动命令、接得上工具。

Syll系统架构图

  • 项目主页:https://thu-sage.github.io/syll/
  • GitHub:https://github.com/THU-SAGE/syll
  • 论文:https://github.com/THU-SAGE/syll/blob/main/docs/report/syll-report-v1.pdf

四大核心能力

1. 统一 GUI、CLI 与 MCP/API

Syll 不在三种操作方式之间做选择,而是把它们放进同一个执行回路:

  • GUI:面对 Photoshop、Blender、Godot 等视觉软件时,直接操作界面
  • CLI:面对批处理、文件操作、环境检查时,走命令行
  • MCP/API:面对结构化工具、外部服务时,走接口调用

智能体根据任务场景自动选择合适的执行路径。它需要观察屏幕、定位目标、处理弹窗、等待状态变化,也需要在合适的时候切到命令行,避免把所有问题都变成笨拙的点击。

2. 示教即技能

这是 Syll 最亮眼的特性。你不需要写脚本、配规则、编 prompt,只需要照着习惯把任务手动操作一遍,Syll 就会自动:

  • 记录关键视觉锚点
  • 捕捉鼠标、键盘和窗口状态变化
  • 提取任务上下文
  • 区分可复用步骤和需要重新判断的步骤

Syll示教功能链路

得到的不是一段死板录屏,而是可以再次调用、继续修正的技能文件。它学到的是"你如何完成这个任务",不是孤立的按钮坐标。

3. 全程可审计追踪

每次执行都会留下完整轨迹:它看见了什么、调用了什么工具、在哪一步等待、哪里重试、为什么切换动作通道。所有屏幕操作和界面状态变更都可以被记录、回放和审计。

Syll运行全流程图

用户始终保有对关键决策的最终把控权,形成"机器执行 -> 人审核"的验证闭环。

4. 本地模块化架构

Syll 的记忆、技能、规则和偏好都以本地可编辑文件的形式组织:

  • 普通用户可以在前端面板完成模型配置、技能管理、定时任务
  • 开发者可以接入自己的模型 provider、替换工具模块、增加技能通道
  • 代码摒弃过度封装与冗余逻辑,各模块具备清晰的调用链路与独立的抽象边界

快速开始

# 克隆仓库
git clone https://github.com/THU-SAGE/syll.git
cd syll

# 按照项目 README 中的指引安装依赖和配置模型

Syll 目前处于 public alpha 阶段,团队在持续迭代中。你可以:

  • 作为开箱即用的桌面助手直接使用
  • 作为可扩展的研究/开发框架进行二次开发
  • 针对特定场景独立开发技能插件

适用场景

  • 桌面软件自动化:Photoshop、Blender、Godot 等无 API 的视觉软件操作
  • 重复工作流录制:把日常重复操作录制成可复用技能
  • 个人办公助手:文件整理、数据分析、报告生成
  • 开发者工具链:代码编辑、调试、部署的自动化编排
  • 隐私敏感场景:数据不离开本地,全程可控可审计

Syll 解决的是当前桌面 Agent 的几个核心痛点:操作方式割裂、教学门槛高、执行不透明、数据不安全。如果你需要一个既能操作桌面软件、又能跑命令行、还能调工具的个人自动化助手,Syll 值得一试。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Syll 是什么四大核心能力1. 统一 GUI、CLI 与 MCP/API2. 示教即技能3. 全程可审计追踪4. 本地模块化架构快速开始适用场景

相关文章

Codex Computer Use登陆Windows实操指南
AI教程

Codex Computer Use登陆Windows实操指南

OpenAI Codex正式支持Windows电脑操作,附完整开启步骤、限制说明和手机远程控制方法

avatar for toolin小编
toolin小编
16小时前
腾讯「代号Craft」:用自然语言从零做游戏的 AI 平台
AI产品

腾讯「代号Craft」:用自然语言从零做游戏的 AI 平台

腾讯游戏发布的 AI 游戏创作平台,支持自然语言生成可运行游戏,覆盖 2D/3D,内置全链路 AIGC 工具和 2 万免费资产,零基础也能做出完整游戏。

avatar for toolin小编
toolin小编
1天前
Step 3.7 Flash接入Claude Code实测指南
AI教程

Step 3.7 Flash接入Claude Code实测指南

阶跃开源Flash模型实测接入Claude Code,用复杂Agent工作流验证国产模型能否顶上闭源基座

avatar for toolin小编
toolin小编
16小时前