火山引擎新基模豆包 Seed 2.1 Pro 实测,Agent Coding 跑通多级联动开发,多模态拍照识鱼精准到拉丁名,价格比 Claude Opus 低近 80%。


火山引擎新基模豆包 Seed 2.1 Pro 实测,Agent Coding 跑通多级联动开发,多模态拍照识鱼精准到拉丁名,价格比 Claude Opus 低近 80%。
火山引擎在年度 Force 大会上发布了最新基模 豆包 Seed 2.1 系列(Pro / Turbo)。一句话结论:这次 Coding 和 Agent 能力迈过了「生产级可用」这条线,多模态识别有惊喜。本文用 7 个真实任务(前端开发、Agent 工作流、信息卡生成、拍照识鱼)实测它的能力边界,并给出在 Claude Code 中接入的具体方式。如果你正在找一个国产、便宜、能干活的 coding agent 主力模型,这次值得认真试试。

「小汽车测试」一次性考察物理建模、无缝循环动画、空间层次和原生 JS 编程能力,Seed 2.1 Pro 整体完成度超预期。
豆包 1.6、1.8、2.0 之前很少放主流基准测试,这次 Seed 2.1 放了不少,并且官方演示里有一个挺能打的 case:用豆包 2.1 Pro 搭建 3D 虚拟城市场景,500 余个智能 Agent 同步协作、上千轮工具调用、生成超百栋建筑。
价格也是这次的重点:
提示词要求设计一个面向 CFO 的「AI 财务预测平台」官网首页,包含 Hero、客户 Logo、核心卖点、实时仪表盘预览、客户证言、价格入口和 CTA,视觉风格接近 Linear / Stripe / Notion 的高级感。

界面简洁清晰,提示词遵循到位,图表展示效果不错,整体属于「符合超预期」的水准。
身边 AI Coding 厉害的朋友现在都用「文档驱动开发(Spec 开发)」——先让 AI 生成需求文档,自己检查没问题后丢给 AI 开发。最常见的案例是开发一个 CMS(内容管理系统)。
直接把 PRD 文档地址发给 Seed 2.1 Pro:
读取这个 PRD,开发 CMS 系统:[文档地址]

它自动选了 Next.js 框架 + SQLite 数据库,还设计了 REST API 接口,5 分钟左右完成开发,增删改查全部正常。
💡 提示:常规编程任务也可以交给 Seed 2.1 Pro 了。给它一份清晰的 PRD,比来回口头描述需求效率高得多。
这是更复杂的工程任务。开源项目 WeSight 的 Obsidian 插件原本配置简陋,目标是参考客户端截图,做出「引擎选择 → 本机/WeSight 配置二级切换 → 供应商列表 → 模型二级展开」的多级联动选择器。
把客户端截图丢给豆包 2.1 Pro,指令:
在插件选择对应的引擎后我希望有二级选择框,可以选择是本机配置还是交给 wesight 配置。具体 UI 交互效果参考给你的截图。先改 claude code 这个引擎。
它拿到截图后没急着写代码,而是先对截图做视觉理解,提取 UI 的布局结构、交互层级和组件关系,然后主动探索项目代码结构、定位核心逻辑文件、读懂上下游依赖。

这种「先读后写」的工作流,和靠谱开发者拿到需求后的行为模式一致——先搞清楚现有架构,再决定怎么改。
更难得的是,它在开发过程中主动发现并修复了原有配置源逻辑的一个 bug(配置切换后供应商列表没正确刷新)——「修路的时候顺便把旁边的坑也填了」。两轮任务合计耗时约 1 小时,跑完涉及多级联动、异步数据源切换、状态持久化的完整功能。
💡 提示:这种「给截图还原交互」的能力,本质是 VLM(视觉语言模型)能力——它把截图中的视觉信息转化为可执行的前端逻辑,包括组件层级、交互状态和数据流转。
开发者自用场景:拍照后 AI 自动读 exif 记录钓点,同时识别渔获鱼种和数量。之前测 Gemini 3.1 Flash,把白条识别成「泥鳅」。
给 Seed 2.1 Pro 一张未抹去 exif 的图片,提示词:
读取这张图片的地理位置信息,并识别图中有几条鱼,什么鱼

它调用 exif 工具读取了地理位置(温榆河),准确识别鱼种和数量,连泥水中看不太清的两条都没漏,还科普了白条的拉丁名 Hemiculter Leucisculus 和其他俗名。
豆包专业版、TRAE、TRAE WORK、扣子都已上线 Seed-2.1-Pro。但企业和专业用户一般会接 API,在 Claude Code 等工具中使用。为避免产品系统提示词干扰测试结果,下面所有测试都通过 CC Switch + 火山方舟 API 完成。
火山方舟已经全量开放,直接去火山方舟申请 API 即可。如果你想把 Seed 2.1 Pro 设为 Claude Code 的主力模型,三个环境变量就能切换:
export ANTHROPIC_BASE_URL=https://ark.cn-beijing.volces.com/api/compatible
export ANTHROPIC_AUTH_TOKEN=你的_ARK_API_Key
export ANTHROPIC_MODEL=doubao-seed-2-1-pro-preview值得肯定:
仍有提升空间:
文中用到的 Skill 均开源,直接 npx skills add 即可使用。

阿里发布视频生成模型 HappyHorse 1.1,五大维度升级,1080P 每秒 1.2 元降为 0.9 元,附实测对比与体验地址。

火山引擎 Seed-Audio 1.0 升级为影视级全要素直出,一段提示词即可生成多角色对话、音效与背景音乐,接近成片级声音。

百度开源 Unlimited OCR,3B 总参数 / 500M 激活的端到端 OCR 模型,刷新 OmniDocBench SOTA,单次推理转录数十页文档不失忆。