视频转图文博客：用 Agent 和多模态模型重做 Karpathy 的工作流

两年前，Andrej Karpathy 想把自己 2 小时 13 分钟的 tokenizer 教学视频自动转换成一篇博客。当时的方案（Whisper 转写 + LLM 改写 + 手动配图）效果不稳定，因为每一步都在丢信息。现在，借助全模态理解模型 Doubao-Seed-2.0-lite 和 Agent 工作流，这件事终于可以工程化地做完了。

这篇文章会带你完整走一遍"视频转图文博客"的四步实操流程。

问题的本质

传统的 ASR + LLM 流水线有一个根本缺陷：转录这一步会丢掉大量信息。

ASR 只保留了"说话的人说了什么"，丢掉了语气、停顿、背景音
LLM 只能读转录稿，看不到屏幕上的代码、图表、PPT
配图是另一个独立任务，要么人工挑帧，要么引入额外的视觉模型

技术视频里的关键信息很多不在语音里，而在画面里：slide 上的架构图、终端里跑出的命令、IDE 里被修改的代码行、GitHub PR 的状态变化。

全模态模型的价值是把"音频""画面""屏幕文字""上下文文本"放到同一个理解空间里，同时回答：讲者说了什么？画面出现了什么？两者合在一起表达的技术含义是什么？

开始前的准备

所需工具：Agent 框架（如 Claude Code、Trae 等）、Doubao-Seed-2.0-lite API、ffmpeg
所需账号：豆包大模型 API Key（在火山引擎平台注册获取）
技术要求：基本的命令行操作能力，TypeScript/Python 基础
开源 Skill：doubao-multimodal（https://github.com/JimLiu/doubao-multimodal-skill）

doubao-multimodal 是一个 Bun + TypeScript 编写的 CLI 工具，封装了 Doubao-Seed 的多模态 chat completion endpoint。它接收本地文件或远程 URL，自动处理下载、视频切片、并发调用、结果合并等工程细节。

Skill 内置的原子化 Task

Task	用途	是否保留画面
`asr`	纯语音转写	否
`asr-timestamp`	每个字符带时间戳	否
`multispeaker-asr`	多说话人转写	否
`diarize`	说话人 + 时间段日志	否
`caption`	音视频整体描述报告	是
`video-timeline`	输出视频事件时间轴 JSON	是
`keyframe-extract`	为技术博客挑配图关键帧	是
`understand`	自定义 prompt 的通用音视频理解	是

这些 task 是原子化的，可以自由组合。不只是博客写作，换一套 prompt 和输出格式，同一个 Skill 就可以用在转写报告、竞品分析、课堂记录等场景。

四步流程详解

第一步：长视频切片，但不"拍扁"成纯文本

模型单次输入有时长和大小限制。Skill 会先检查视频：如果超过 20 分钟或 50 MB，就用 ffmpeg 自动切片；如果分辨率高于 720p，就下采样到 720p。切片后并发调用模型，再按时间顺序合并结果。

关键点：切片不是转写。每个切片仍然保留视频、画面和音频信息，模型仍然可以看到 slide、代码、UI 和听到讲者声音。

# Skill 自动执行的切片逻辑（无需手动操作）
ffmpeg -i input.mp4 -c copy -map 0 -segment_time 600 -f segment output%03d.mp4

第二步：生成结构化"文章素材"，不要直接憋终稿

长视频不建议让模型一次输出完整文章。更稳的做法是先输出结构化素材，再基于素材写作。

给 Agent 的提示词：

请基于这段技术演讲视频，输出一份用于撰写中文技术博客的结构化素材。
请同时利用画面、语音和屏幕文字，不要只总结语音。

请至少包含：
- 视频主题和一句话摘要
- 按时间顺序拆分的章节
- 每一章的讲解重点
- 画面中出现的关键证据（代码、架构图、命令、UI 状态）
- 需要原样保留的英文术语、命令、文件名、API 名称
- 不确定或需要人工复核的点

这一步让模型先当"研究助理"而不是"作者"，把事实边界整理清楚。

提示：拿到结构化素材后，Agent 再进入写作阶段，把素材改写成中文博客初稿。这样写出来的文章比一步到位更稳定，也更容易检查。

第三步：根据文章反查视频，自动挑关键帧

文章初稿出来后，让 Agent 把"文章内容"和"原视频"一起交给多模态模型，让它为博客挑选配图。

输出的结构化 JSON：

{
  "keyframes": [
    {
      "timestamp": "03:15",
      "timestamp_sec": 195.0,
      "description": "VS Code 中出现完整命令行输出，展示 JSON 结构",
      "suggested_caption": "图：结构化输出示例",
      "reason": "对应文章中关于 JSON 可被上层系统解析的论点"
    }
  ]
}

最重要的字段是 reason。模型必须同时回答三件事：

文章这一段在讲什么？
视频这个时刻画面里有什么？
这张图能不能帮助读者理解这个论点？

这正是传统 ASR + LLM 流水线做不到的地方。

第四步：用 ffmpeg 截图，把图片插回 Markdown

拿到关键帧 JSON 后，用确定性工具（而非模型）完成截图和插入：

mkdir -p imgs

i=0
jq -r '
  (.segments[0].text | fromjson | .keyframes[]) |
  [.timestamp_sec, .suggested_caption] | @tsv
' out/keyframe-extract.json |
while IFS=$'\t' read -r ts caption; do
  i=$((i + 1))
  file=$(printf "%02d.jpg" "$i")

  ffmpeg -hide_banner -loglevel error \
    -ss "$ts" -i talk.mp4 \
    -frames:v 1 -q:v 2 "imgs/$file"

  printf "%s[%s](imgs/%s)\n\n" "!" "$caption" "$file" >> frames.md
done

注意：如果视频被切成了多段，模型返回的 timestamp_sec 可能是分段内的局部时间戳。Skill 在合并结果时需要把 segment.start_sec 加回去，统一转换成原视频的全局时间戳。

验证结果

使用一条简短的 Agent 指令即可跑通整个流程：

/doubao-multimodal 帮我基于 <~/downloads/xxx.mp4> 这个视频写一篇中文技术博客，
内容翔实，要图文并茂，保存到 out 下，新建一个目录，包括 markdown 和 imgs。

最终生成的文章包含：结构化的正文内容、自动挑选的视频关键帧截图、对应的时间戳引用。

常见问题

长视频超过限制怎么办？ Skill 会自动切片并并发处理，支持任意长度的视频。
时间戳不精确怎么办？ 模型能定位"大概哪个时刻适合截图"，如果对画面清晰度要求高，在 timestamp_sec 前后多取几张候选帧做二次筛选。
需要人工审稿吗？ 需要。模型能帮你理解视频、整理结构、挑图，但涉及具体 API、版本、命令、事实判断时，发布前最好人工过一遍。
这套流程适合实时处理吗？ 不适合。这是异步深度理解的方案，适合"录完后处理"的场景。实时场景需要另外的系统设计。

延伸应用场景

这套模式不局限于视频转博客，还可以迁移到：

竞品直播追踪：GUI Agent 定时采集 + 多模态理解 + 看板生成
在线课堂报告：学生表现分析，不只是答对率，还有专注度、流畅度、情绪状态
游戏赛后复盘：录屏 + 队友语音 + 事件时间线一起分析

这篇文章会带你完整走一遍"视频转图文博客"的四步实操流程。

问题的本质

传统的 ASR + LLM 流水线有一个根本缺陷：转录这一步会丢掉大量信息。

ASR 只保留了"说话的人说了什么"，丢掉了语气、停顿、背景音
LLM 只能读转录稿，看不到屏幕上的代码、图表、PPT
配图是另一个独立任务，要么人工挑帧，要么引入额外的视觉模型

技术视频里的关键信息很多不在语音里，而在画面里：slide 上的架构图、终端里跑出的命令、IDE 里被修改的代码行、GitHub PR 的状态变化。

开始前的准备

所需工具：Agent 框架（如 Claude Code、Trae 等）、Doubao-Seed-2.0-lite API、ffmpeg
所需账号：豆包大模型 API Key（在火山引擎平台注册获取）
技术要求：基本的命令行操作能力，TypeScript/Python 基础
开源 Skill：doubao-multimodal（https://github.com/JimLiu/doubao-multimodal-skill）

Skill 内置的原子化 Task

Task	用途	是否保留画面
`asr`	纯语音转写	否
`asr-timestamp`	每个字符带时间戳	否
`multispeaker-asr`	多说话人转写	否
`diarize`	说话人 + 时间段日志	否
`caption`	音视频整体描述报告	是
`video-timeline`	输出视频事件时间轴 JSON	是
`keyframe-extract`	为技术博客挑配图关键帧	是
`understand`	自定义 prompt 的通用音视频理解	是

这些 task 是原子化的，可以自由组合。不只是博客写作，换一套 prompt 和输出格式，同一个 Skill 就可以用在转写报告、竞品分析、课堂记录等场景。

四步流程详解

第一步：长视频切片，但不"拍扁"成纯文本

关键点：切片不是转写。每个切片仍然保留视频、画面和音频信息，模型仍然可以看到 slide、代码、UI 和听到讲者声音。

# Skill 自动执行的切片逻辑（无需手动操作）
ffmpeg -i input.mp4 -c copy -map 0 -segment_time 600 -f segment output%03d.mp4

第二步：生成结构化"文章素材"，不要直接憋终稿

长视频不建议让模型一次输出完整文章。更稳的做法是先输出结构化素材，再基于素材写作。

给 Agent 的提示词：

请基于这段技术演讲视频，输出一份用于撰写中文技术博客的结构化素材。
请同时利用画面、语音和屏幕文字，不要只总结语音。

请至少包含：
- 视频主题和一句话摘要
- 按时间顺序拆分的章节
- 每一章的讲解重点
- 画面中出现的关键证据（代码、架构图、命令、UI 状态）
- 需要原样保留的英文术语、命令、文件名、API 名称
- 不确定或需要人工复核的点

这一步让模型先当"研究助理"而不是"作者"，把事实边界整理清楚。

提示：拿到结构化素材后，Agent 再进入写作阶段，把素材改写成中文博客初稿。这样写出来的文章比一步到位更稳定，也更容易检查。

第三步：根据文章反查视频，自动挑关键帧

文章初稿出来后，让 Agent 把"文章内容"和"原视频"一起交给多模态模型，让它为博客挑选配图。

输出的结构化 JSON：

{
  "keyframes": [
    {
      "timestamp": "03:15",
      "timestamp_sec": 195.0,
      "description": "VS Code 中出现完整命令行输出，展示 JSON 结构",
      "suggested_caption": "图：结构化输出示例",
      "reason": "对应文章中关于 JSON 可被上层系统解析的论点"
    }
  ]
}

最重要的字段是 reason。模型必须同时回答三件事：

文章这一段在讲什么？
视频这个时刻画面里有什么？
这张图能不能帮助读者理解这个论点？

这正是传统 ASR + LLM 流水线做不到的地方。

第四步：用 ffmpeg 截图，把图片插回 Markdown

拿到关键帧 JSON 后，用确定性工具（而非模型）完成截图和插入：

mkdir -p imgs

i=0
jq -r '
  (.segments[0].text | fromjson | .keyframes[]) |
  [.timestamp_sec, .suggested_caption] | @tsv
' out/keyframe-extract.json |
while IFS=$'\t' read -r ts caption; do
  i=$((i + 1))
  file=$(printf "%02d.jpg" "$i")

  ffmpeg -hide_banner -loglevel error \
    -ss "$ts" -i talk.mp4 \
    -frames:v 1 -q:v 2 "imgs/$file"

  printf "%s[%s](imgs/%s)\n\n" "!" "$caption" "$file" >> frames.md
done

注意：如果视频被切成了多段，模型返回的 timestamp_sec 可能是分段内的局部时间戳。Skill 在合并结果时需要把 segment.start_sec 加回去，统一转换成原视频的全局时间戳。

验证结果

使用一条简短的 Agent 指令即可跑通整个流程：

/doubao-multimodal 帮我基于 <~/downloads/xxx.mp4> 这个视频写一篇中文技术博客，
内容翔实，要图文并茂，保存到 out 下，新建一个目录，包括 markdown 和 imgs。

最终生成的文章包含：结构化的正文内容、自动挑选的视频关键帧截图、对应的时间戳引用。

常见问题

长视频超过限制怎么办？ Skill 会自动切片并并发处理，支持任意长度的视频。
时间戳不精确怎么办？ 模型能定位"大概哪个时刻适合截图"，如果对画面清晰度要求高，在 timestamp_sec 前后多取几张候选帧做二次筛选。
需要人工审稿吗？ 需要。模型能帮你理解视频、整理结构、挑图，但涉及具体 API、版本、命令、事实判断时，发布前最好人工过一遍。
这套流程适合实时处理吗？ 不适合。这是异步深度理解的方案，适合"录完后处理"的场景。实时场景需要另外的系统设计。

延伸应用场景

这套模式不局限于视频转博客，还可以迁移到：

竞品直播追踪：GUI Agent 定时采集 + 多模态理解 + 看板生成
在线课堂报告：学生表现分析，不只是答对率，还有专注度、流畅度、情绪状态
游戏赛后复盘：录屏 + 队友语音 + 事件时间线一起分析

全部

AI教程

AI产品

AI资源

视频转图文博客：用 Agent 和多模态模型重做 Karpathy 的工作流

视频转图文博客：用 Agent 和多模态模型重做 Karpathy 的工作流

作者

分类

相关文章

Codex 5.5 + GPT-5.5：OpenAI编程工具大升级

GPT-image-2图片一键转PSD，开源Skill实测

GPT-5.5 Instant 发布：幻觉降 52%，回答精简 30%

视频转图文博客：用 Agent 和多模态模型重做 Karpathy 的工作流

视频转图文博客：用 Agent 和多模态模型重做 Karpathy 的工作流

作者

分类

相关文章

Codex 5.5 + GPT-5.5：OpenAI编程工具大升级

GPT-image-2图片一键转PSD，开源Skill实测

GPT-5.5 Instant 发布：幻觉降 52%，回答精简 30%