支持GUI、CLI、MCP三种操作方式,通过示教自动生成可复用技能,本地部署保护数据隐私


支持GUI、CLI、MCP三种操作方式,通过示教自动生成可复用技能,本地部署保护数据隐私
大多数桌面 AI Agent 只会一种操作方式——要么调 API,要么点界面。遇到 Photoshop、Blender 这类没有 API 的视觉软件,或者需要混合使用命令行和界面操作的真实工作流,它们就束手无策。清华大学智能视觉实验室开源的 Syll 框架把 GUI、CLI、MCP/API 统一进同一个执行回路,还支持"你做一遍,它就会了"的示教学习。
Syll 是一个多模态全交互智能体框架,由清华大学鲁继文教授团队与极佳视界联合开发。它的核心思路是:一个完整的桌面智能体应该能在不同的"操作表面"之间自然流转——看得见界面、点得到按钮、跑得动命令、接得上工具。

Syll 不在三种操作方式之间做选择,而是把它们放进同一个执行回路:
智能体根据任务场景自动选择合适的执行路径。它需要观察屏幕、定位目标、处理弹窗、等待状态变化,也需要在合适的时候切到命令行,避免把所有问题都变成笨拙的点击。
这是 Syll 最亮眼的特性。你不需要写脚本、配规则、编 prompt,只需要照着习惯把任务手动操作一遍,Syll 就会自动:

得到的不是一段死板录屏,而是可以再次调用、继续修正的技能文件。它学到的是"你如何完成这个任务",不是孤立的按钮坐标。
每次执行都会留下完整轨迹:它看见了什么、调用了什么工具、在哪一步等待、哪里重试、为什么切换动作通道。所有屏幕操作和界面状态变更都可以被记录、回放和审计。

用户始终保有对关键决策的最终把控权,形成"机器执行 -> 人审核"的验证闭环。
Syll 的记忆、技能、规则和偏好都以本地可编辑文件的形式组织:
# 克隆仓库
git clone https://github.com/THU-SAGE/syll.git
cd syll
# 按照项目 README 中的指引安装依赖和配置模型Syll 目前处于 public alpha 阶段,团队在持续迭代中。你可以:
Syll 解决的是当前桌面 Agent 的几个核心痛点:操作方式割裂、教学门槛高、执行不透明、数据不安全。如果你需要一个既能操作桌面软件、又能跑命令行、还能调工具的个人自动化助手,Syll 值得一试。

OpenAI Codex正式支持Windows电脑操作,附完整开启步骤、限制说明和手机远程控制方法

腾讯游戏发布的 AI 游戏创作平台,支持自然语言生成可运行游戏,覆盖 2D/3D,内置全链路 AIGC 工具和 2 万免费资产,零基础也能做出完整游戏。

阶跃开源Flash模型实测接入Claude Code,用复杂Agent工作流验证国产模型能否顶上闭源基座