Syll：清华开源多模态全交互智能体框架

大多数桌面 AI Agent 只会一种操作方式——要么调 API，要么点界面。遇到 Photoshop、Blender 这类没有 API 的视觉软件，或者需要混合使用命令行和界面操作的真实工作流，它们就束手无策。清华大学智能视觉实验室开源的 Syll 框架把 GUI、CLI、MCP/API 统一进同一个执行回路，还支持"你做一遍，它就会了"的示教学习。

Syll 是什么

Syll 是一个多模态全交互智能体框架，由清华大学鲁继文教授团队与极佳视界联合开发。它的核心思路是：一个完整的桌面智能体应该能在不同的"操作表面"之间自然流转——看得见界面、点得到按钮、跑得动命令、接得上工具。

Syll系统架构图

项目主页：https://thu-sage.github.io/syll/
GitHub：https://github.com/THU-SAGE/syll
论文：https://github.com/THU-SAGE/syll/blob/main/docs/report/syll-report-v1.pdf

四大核心能力

1. 统一 GUI、CLI 与 MCP/API

Syll 不在三种操作方式之间做选择，而是把它们放进同一个执行回路：

GUI：面对 Photoshop、Blender、Godot 等视觉软件时，直接操作界面
CLI：面对批处理、文件操作、环境检查时，走命令行
MCP/API：面对结构化工具、外部服务时，走接口调用

智能体根据任务场景自动选择合适的执行路径。它需要观察屏幕、定位目标、处理弹窗、等待状态变化，也需要在合适的时候切到命令行，避免把所有问题都变成笨拙的点击。

2. 示教即技能

这是 Syll 最亮眼的特性。你不需要写脚本、配规则、编 prompt，只需要照着习惯把任务手动操作一遍，Syll 就会自动：

记录关键视觉锚点
捕捉鼠标、键盘和窗口状态变化
提取任务上下文
区分可复用步骤和需要重新判断的步骤

Syll示教功能链路

得到的不是一段死板录屏，而是可以再次调用、继续修正的技能文件。它学到的是"你如何完成这个任务"，不是孤立的按钮坐标。

3. 全程可审计追踪

每次执行都会留下完整轨迹：它看见了什么、调用了什么工具、在哪一步等待、哪里重试、为什么切换动作通道。所有屏幕操作和界面状态变更都可以被记录、回放和审计。

Syll运行全流程图

用户始终保有对关键决策的最终把控权，形成"机器执行 -> 人审核"的验证闭环。

4. 本地模块化架构

Syll 的记忆、技能、规则和偏好都以本地可编辑文件的形式组织：

普通用户可以在前端面板完成模型配置、技能管理、定时任务
开发者可以接入自己的模型 provider、替换工具模块、增加技能通道
代码摒弃过度封装与冗余逻辑，各模块具备清晰的调用链路与独立的抽象边界

快速开始

# 克隆仓库
git clone https://github.com/THU-SAGE/syll.git
cd syll

# 按照项目 README 中的指引安装依赖和配置模型

Syll 目前处于 public alpha 阶段，团队在持续迭代中。你可以：

作为开箱即用的桌面助手直接使用
作为可扩展的研究/开发框架进行二次开发
针对特定场景独立开发技能插件

适用场景

桌面软件自动化：Photoshop、Blender、Godot 等无 API 的视觉软件操作
重复工作流录制：把日常重复操作录制成可复用技能
个人办公助手：文件整理、数据分析、报告生成
开发者工具链：代码编辑、调试、部署的自动化编排
隐私敏感场景：数据不离开本地，全程可控可审计

Syll 解决的是当前桌面 Agent 的几个核心痛点：操作方式割裂、教学门槛高、执行不透明、数据不安全。如果你需要一个既能操作桌面软件、又能跑命令行、还能调工具的个人自动化助手，Syll 值得一试。

Syll 是什么

Syll系统架构图

项目主页：https://thu-sage.github.io/syll/
GitHub：https://github.com/THU-SAGE/syll
论文：https://github.com/THU-SAGE/syll/blob/main/docs/report/syll-report-v1.pdf