toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,295个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

视频转图文博客:用 Agent 和多模态模型重做 Karpathy 的工作流

2026/05/07
·toolin小编

用 Doubao Seed 2.0 Lite 全模态模型配合 Agent,实现视频自动转图文博客的四步工作流,解决传统 ASR+LLM 流水线丢失画面信息的问题。

视频转图文博客:用 Agent 和多模态模型重做 Karpathy 的工作流
视频转图文博客:用 Agent 和多模态模型重做 Karpathy 的工作流
2026/05/07

视频转图文博客:用 Agent 和多模态模型重做 Karpathy 的工作流

用 Doubao Seed 2.0 Lite 全模态模型配合 Agent,实现视频自动转图文博客的四步工作流,解决传统 ASR+LLM 流水线丢失画面信息的问题。

问题的本质开始前的准备Skill 内置的原子化 Task四步流程详解第一步:长视频切片,但不"拍扁"成纯文本第二步:生成结构化"文章素材",不要直接憋终稿第三步:根据文章反查视频,自动挑关键帧第四步:用 ffmpeg 截图,把图片插回 Markdown验证结果常见问题延伸应用场景
AI教程

两年前,Andrej Karpathy 想把自己 2 小时 13 分钟的 tokenizer 教学视频自动转换成一篇博客。当时的方案(Whisper 转写 + LLM 改写 + 手动配图)效果不稳定,因为每一步都在丢信息。现在,借助全模态理解模型 Doubao-Seed-2.0-lite 和 Agent 工作流,这件事终于可以工程化地做完了。

这篇文章会带你完整走一遍"视频转图文博客"的四步实操流程。

问题的本质

传统的 ASR + LLM 流水线有一个根本缺陷:转录这一步会丢掉大量信息。

  • ASR 只保留了"说话的人说了什么",丢掉了语气、停顿、背景音
  • LLM 只能读转录稿,看不到屏幕上的代码、图表、PPT
  • 配图是另一个独立任务,要么人工挑帧,要么引入额外的视觉模型

技术视频里的关键信息很多不在语音里,而在画面里:slide 上的架构图、终端里跑出的命令、IDE 里被修改的代码行、GitHub PR 的状态变化。

全模态模型的价值是把"音频""画面""屏幕文字""上下文文本"放到同一个理解空间里,同时回答:讲者说了什么?画面出现了什么?两者合在一起表达的技术含义是什么?

Image

开始前的准备

  • 所需工具:Agent 框架(如 Claude Code、Trae 等)、Doubao-Seed-2.0-lite API、ffmpeg
  • 所需账号:豆包大模型 API Key(在火山引擎平台注册获取)
  • 技术要求:基本的命令行操作能力,TypeScript/Python 基础
  • 开源 Skill:doubao-multimodal(https://github.com/JimLiu/doubao-multimodal-skill)

doubao-multimodal 是一个 Bun + TypeScript 编写的 CLI 工具,封装了 Doubao-Seed 的多模态 chat completion endpoint。它接收本地文件或远程 URL,自动处理下载、视频切片、并发调用、结果合并等工程细节。

Skill 内置的原子化 Task

Task用途是否保留画面
asr纯语音转写否
asr-timestamp每个字符带时间戳否
multispeaker-asr多说话人转写否
diarize说话人 + 时间段日志否
caption音视频整体描述报告是
video-timeline输出视频事件时间轴 JSON是
keyframe-extract为技术博客挑配图关键帧是
understand自定义 prompt 的通用音视频理解是

这些 task 是原子化的,可以自由组合。不只是博客写作,换一套 prompt 和输出格式,同一个 Skill 就可以用在转写报告、竞品分析、课堂记录等场景。

四步流程详解

第一步:长视频切片,但不"拍扁"成纯文本

模型单次输入有时长和大小限制。Skill 会先检查视频:如果超过 20 分钟或 50 MB,就用 ffmpeg 自动切片;如果分辨率高于 720p,就下采样到 720p。切片后并发调用模型,再按时间顺序合并结果。

关键点:切片不是转写。每个切片仍然保留视频、画面和音频信息,模型仍然可以看到 slide、代码、UI 和听到讲者声音。

# Skill 自动执行的切片逻辑(无需手动操作)
ffmpeg -i input.mp4 -c copy -map 0 -segment_time 600 -f segment output%03d.mp4

Image

第二步:生成结构化"文章素材",不要直接憋终稿

长视频不建议让模型一次输出完整文章。更稳的做法是先输出结构化素材,再基于素材写作。

给 Agent 的提示词:

请基于这段技术演讲视频,输出一份用于撰写中文技术博客的结构化素材。
请同时利用画面、语音和屏幕文字,不要只总结语音。

请至少包含:
- 视频主题和一句话摘要
- 按时间顺序拆分的章节
- 每一章的讲解重点
- 画面中出现的关键证据(代码、架构图、命令、UI 状态)
- 需要原样保留的英文术语、命令、文件名、API 名称
- 不确定或需要人工复核的点

这一步让模型先当"研究助理"而不是"作者",把事实边界整理清楚。

提示:拿到结构化素材后,Agent 再进入写作阶段,把素材改写成中文博客初稿。这样写出来的文章比一步到位更稳定,也更容易检查。

第三步:根据文章反查视频,自动挑关键帧

文章初稿出来后,让 Agent 把"文章内容"和"原视频"一起交给多模态模型,让它为博客挑选配图。

输出的结构化 JSON:

{
  "keyframes": [
    {
      "timestamp": "03:15",
      "timestamp_sec": 195.0,
      "description": "VS Code 中出现完整命令行输出,展示 JSON 结构",
      "suggested_caption": "图:结构化输出示例",
      "reason": "对应文章中关于 JSON 可被上层系统解析的论点"
    }
  ]
}

最重要的字段是 reason。模型必须同时回答三件事:

  1. 文章这一段在讲什么?
  2. 视频这个时刻画面里有什么?
  3. 这张图能不能帮助读者理解这个论点?

这正是传统 ASR + LLM 流水线做不到的地方。

Image

第四步:用 ffmpeg 截图,把图片插回 Markdown

拿到关键帧 JSON 后,用确定性工具(而非模型)完成截图和插入:

mkdir -p imgs

i=0
jq -r '
  (.segments[0].text | fromjson | .keyframes[]) |
  [.timestamp_sec, .suggested_caption] | @tsv
' out/keyframe-extract.json |
while IFS=$'\t' read -r ts caption; do
  i=$((i + 1))
  file=$(printf "%02d.jpg" "$i")

  ffmpeg -hide_banner -loglevel error \
    -ss "$ts" -i talk.mp4 \
    -frames:v 1 -q:v 2 "imgs/$file"

  printf "%s[%s](imgs/%s)\n\n" "!" "$caption" "$file" >> frames.md
done

注意:如果视频被切成了多段,模型返回的 timestamp_sec 可能是分段内的局部时间戳。Skill 在合并结果时需要把 segment.start_sec 加回去,统一转换成原视频的全局时间戳。

验证结果

使用一条简短的 Agent 指令即可跑通整个流程:

/doubao-multimodal 帮我基于 <~/downloads/xxx.mp4> 这个视频写一篇中文技术博客,
内容翔实,要图文并茂,保存到 out 下,新建一个目录,包括 markdown 和 imgs。

最终生成的文章包含:结构化的正文内容、自动挑选的视频关键帧截图、对应的时间戳引用。

Image

常见问题

  • 长视频超过限制怎么办? Skill 会自动切片并并发处理,支持任意长度的视频。
  • 时间戳不精确怎么办? 模型能定位"大概哪个时刻适合截图",如果对画面清晰度要求高,在 timestamp_sec 前后多取几张候选帧做二次筛选。
  • 需要人工审稿吗? 需要。模型能帮你理解视频、整理结构、挑图,但涉及具体 API、版本、命令、事实判断时,发布前最好人工过一遍。
  • 这套流程适合实时处理吗? 不适合。这是异步深度理解的方案,适合"录完后处理"的场景。实时场景需要另外的系统设计。

延伸应用场景

这套模式不局限于视频转博客,还可以迁移到:

  • 竞品直播追踪:GUI Agent 定时采集 + 多模态理解 + 看板生成
  • 在线课堂报告:学生表现分析,不只是答对率,还有专注度、流畅度、情绪状态
  • 游戏赛后复盘:录屏 + 队友语音 + 事件时间线一起分析
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI教程
问题的本质开始前的准备Skill 内置的原子化 Task四步流程详解第一步:长视频切片,但不"拍扁"成纯文本第二步:生成结构化"文章素材",不要直接憋终稿第三步:根据文章反查视频,自动挑关键帧第四步:用 ffmpeg 截图,把图片插回 Markdown验证结果常见问题延伸应用场景

相关文章

小米 Miloco 2.0:智能家居终于有了真正的 AI 大管家
AI产品

小米 Miloco 2.0:智能家居终于有了真正的 AI 大管家

小米开源全屋智能 AI 方案 Xiaomi Miloco 2.0,多模态感知、主动智能、家庭记忆,把 Agent 带进智能家居生态。

avatar for toolin小编
toolin小编
2天前
Agnes AI 全模态API无限期免费,本周升级1M上下文与4K生图
AI产品

Agnes AI 全模态API无限期免费,本周升级1M上下文与4K生图

Agnes AI 无限期免费开放文本、图片、视频全模态模型API,本周升级1M超长上下文和4K超高清文生图能力。

avatar for toolin小编
toolin小编
3天前
把业务拆解成 Skill:AI 时代真正的元能力
AI教程

把业务拆解成 Skill:AI 时代真正的元能力

AI 不是不会用,是你不会拆。从目标到动作到判断,一篇讲透如何把脑中经验变成 AI 能执行的结构化 Skill。

avatar for toolin小编
toolin小编
2天前