Catnip 团队推出流式音视频社交模型 MaineCoon,22B参数实现47.5 FPS推理,支持30分钟以上音画同出,成本仅Veo 3的1/2000。


Catnip 团队推出流式音视频社交模型 MaineCoon,22B参数实现47.5 FPS推理,支持30分钟以上音画同出,成本仅Veo 3的1/2000。
一家 base 中国的 10 人初创团队 Catnip(猫薄荷)发布了流式音视频社交模型 MaineCoon。22B 参数的模型,单张 H100 上跑出 47.5 FPS,首帧 1 秒内出现,支持 30 分钟以上连续生成。成本控制在每秒 0.001 美元以内,GPU 满载状态下每秒仅需 0.00025 美元。
MaineCoon 不是「生成完再播放」,而是边生成边播放,音画同步输出。指令输出后 1 秒内出首帧,随后开始流式输出,过程中可以随时输入新指令,模型无缝衔接切换。
与现有模型的根本差异:
业界首次实现 30 分钟以上连续音视频生成,期间保持画质、一致性和音画同步不崩溃。官方展示了一段 2 分钟的连续生成视频,到最后人物没有出现明显畸变。
MaineCoon 首次将场景垂直落地在社交交互中,核心是「活人感」:
| 模型类型 | 参数量 | FPS |
|---|---|---|
| MaineCoon | 22B | 47.5 |
| 轻量流式视频模型 | 1.3B | 19.1 |
| 同类流式音视频模型 | - | 6-7 |
MaineCoon 比同类流式音视频模型快了整整 7 倍,即使只有 H100 一半成本的 RTX Pro 6000 也能稳定保持 30 FPS 以上。
Catnip 自建了首个社交短视频专用基准测试 SocialVideo Bench,涵盖密集演讲、双人互动、音乐演唱、情绪表演、舞蹈、创意挑战、社交梗七大场景。
MaineCoon 综合得分 0.934,超越 7 款主流音视频生成模型,刷新 SOTA(最优基线 SoulX-FlashTalk 得分 0.895)。
推理侧由三个独立的智能控制器构成:
22B 模型在 64 张 H100 上完成训练,仅用 10k GPU 小时,数据量不到 100 万条。通过将视频编码、文本嵌入、教师特征全部预计算存盘,GPU 只做最核心的计算。
官方已限量开放 200 个邀请码:
Catnip 成立大半年,团队约 10 人。创始人杨姝瑞曾在 TikTok 和 PixVerse 做产品,推动过多款爆款模板特效从 0-1 落地。首席科学家谢泽柯为香港科技大学(广州)助理教授,拥有东京大学博士学位。团队已获红杉、明势等头部 VC 天使轮融资。
MaineCoon 项目从 2026 年 3 月启动,3 名核心研究员用 2 个月完成模型训练、训练架构、数据基建和推理系统的全栈交付。

Codex 推出储蓄重置功能,付费用户获一次额度重置机会,限时邀请活动中双方各得一次,灵活管理编程算力。

AI 不是不会用,是你不会拆。从目标到动作到判断,一篇讲透如何把脑中经验变成 AI 能执行的结构化 Skill。

前世界第一 YouTuber PewDiePie 开源的完全自托管 AI 工作空间,免费、无追踪、自带 Agent,三天狂揽3万星。