toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,295个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

MaineCoon:22B参数47.5 FPS,史上最快流式音视频社交模型

2026/06/20
·toolin小编

Catnip 团队推出流式音视频社交模型 MaineCoon,22B参数实现47.5 FPS推理,支持30分钟以上音画同出,成本仅Veo 3的1/2000。

MaineCoon:22B参数47.5 FPS,史上最快流式音视频社交模型
MaineCoon:22B参数47.5 FPS,史上最快流式音视频社交模型
2026/06/20

MaineCoon:22B参数47.5 FPS,史上最快流式音视频社交模型

Catnip 团队推出流式音视频社交模型 MaineCoon,22B参数实现47.5 FPS推理,支持30分钟以上音画同出,成本仅Veo 3的1/2000。

核心功能音视频流式生成无限时长生成实时社交交互实际体验速度优势成本对比Benchmark 表现技术架构三阶段训练三智能体推理框架工程优化应用场景如何体验关于团队
AI产品

一家 base 中国的 10 人初创团队 Catnip(猫薄荷)发布了流式音视频社交模型 MaineCoon。22B 参数的模型,单张 H100 上跑出 47.5 FPS,首帧 1 秒内出现,支持 30 分钟以上连续生成。成本控制在每秒 0.001 美元以内,GPU 满载状态下每秒仅需 0.00025 美元。

核心功能

音视频流式生成

MaineCoon 不是「生成完再播放」,而是边生成边播放,音画同步输出。指令输出后 1 秒内出首帧,随后开始流式输出,过程中可以随时输入新指令,模型无缝衔接切换。

与现有模型的根本差异:

  • 主流音视频模型:6-7 FPS,生成完才能看,音画分离
  • MaineCoon:47.5 FPS,亚秒级首帧,音画同出,实时可切换

无限时长生成

业界首次实现 30 分钟以上连续音视频生成,期间保持画质、一致性和音画同步不崩溃。官方展示了一段 2 分钟的连续生成视频,到最后人物没有出现明显畸变。

实时社交交互

MaineCoon 首次将场景垂直落地在社交交互中,核心是「活人感」:

  • 眼神变化、嘴角微动、说话节奏等人物细节自然
  • 音画高度同步
  • 生成过程中随时可切换指令
  • 会接用户的话,也会给情绪反馈

实际体验

速度优势

模型类型参数量FPS
MaineCoon22B47.5
轻量流式视频模型1.3B19.1
同类流式音视频模型-6-7

MaineCoon 比同类流式音视频模型快了整整 7 倍,即使只有 H100 一半成本的 RTX Pro 6000 也能稳定保持 30 FPS 以上。

成本对比

  • 每秒推理成本:0.001 美元(常规),0.00025 美元(GPU 满载)
  • 对比 Veo 3:成本的 1/2000
  • 对比 Seedance:成本的 1/560

Benchmark 表现

Catnip 自建了首个社交短视频专用基准测试 SocialVideo Bench,涵盖密集演讲、双人互动、音乐演唱、情绪表演、舞蹈、创意挑战、社交梗七大场景。

MaineCoon 综合得分 0.934,超越 7 款主流音视频生成模型,刷新 SOTA(最优基线 SoulX-FlashTalk 得分 0.895)。

技术架构

三阶段训练

  1. 自重采样(Self-Resampling):让模型在训练时就接触降质版历史帧,学会在带有轻微漂移和噪声的条件下保持稳定,弥合训练与推理的鸿沟
  2. 流式表征对齐:引入冻结预训练 V-JEPA 2 视觉编码器做蒸馏监督,加速跨模态语义结构学习
  3. 域感知偏好优化 + 强化在线策略蒸馏:针对不同社交场景(舞蹈看动态、对话看唇同步、远景看人体结构)训练专门的偏好专家模型,再统一成可部署的流式策略

三智能体推理框架

推理侧由三个独立的智能控制器构成:

  • Director(导演):负责叙事规划与质量纠错,通过观测器持续监测生成内容,发现漂移立即前向修复
  • Cache Manager(缓存管理器):管理 KV 缓存的保留与清除,将角色外观和关键帧作为长期记忆锚点,定期修正全局外观漂移
  • Buffer Controller(缓冲区控制器):平衡实时性与交互响应,把超前生成量控制在合理窗口内

工程优化

22B 模型在 64 张 H100 上完成训练,仅用 10k GPU 小时,数据量不到 100 万条。通过将视频编码、文本嵌入、教师特征全部预计算存盘,GPU 只做最核心的计算。

应用场景

  • 虚拟社交互动:1V1 视频对话,AI 角色实时回应
  • 内容创作:实时流式生成短视频,边创作边调整
  • 虚拟主播/陪伴:长时间稳定运行,音画同步不掉线
  • 多风格内容:真人风格、动画风格(如 Minecraft 小人)均支持

如何体验

官方已限量开放 200 个邀请码:

  • 官网:https://mainecoon.tech/
  • 技术报告:https://arxiv.org/abs/2606.17800
  • 模型 Blog:https://mainecoon.tech/blogs

关于团队

Catnip 成立大半年,团队约 10 人。创始人杨姝瑞曾在 TikTok 和 PixVerse 做产品,推动过多款爆款模板特效从 0-1 落地。首席科学家谢泽柯为香港科技大学(广州)助理教授,拥有东京大学博士学位。团队已获红杉、明势等头部 VC 天使轮融资。

MaineCoon 项目从 2026 年 3 月启动,3 名核心研究员用 2 个月完成模型训练、训练架构、数据基建和推理系统的全栈交付。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
核心功能音视频流式生成无限时长生成实时社交交互实际体验速度优势成本对比Benchmark 表现技术架构三阶段训练三智能体推理框架工程优化应用场景如何体验关于团队

相关文章

OpenAI Codex 上线储蓄重置:额度用完不用等,拉新双方各赚一次
AI产品

OpenAI Codex 上线储蓄重置:额度用完不用等,拉新双方各赚一次

Codex 推出储蓄重置功能,付费用户获一次额度重置机会,限时邀请活动中双方各得一次,灵活管理编程算力。

avatar for toolin小编
toolin小编
1天前
把业务拆解成 Skill:AI 时代真正的元能力
AI教程

把业务拆解成 Skill:AI 时代真正的元能力

AI 不是不会用,是你不会拆。从目标到动作到判断,一篇讲透如何把脑中经验变成 AI 能执行的结构化 Skill。

avatar for toolin小编
toolin小编
2天前
Odysseus:顶流网红手搓的本地版 ChatGPT,3天3万星
AI产品

Odysseus:顶流网红手搓的本地版 ChatGPT,3天3万星

前世界第一 YouTuber PewDiePie 开源的完全自托管 AI 工作空间,免费、无追踪、自带 Agent,三天狂揽3万星。

avatar for toolin小编
toolin小编
2天前