阿里发布世界模型产品HappyOyster 1.0,支持一句话生成可实时探索、物理交互的开放世界,世界探索和实时导演两大模式,API预计7月初开放。


阿里发布世界模型产品HappyOyster 1.0,支持一句话生成可实时探索、物理交互的开放世界,世界探索和实时导演两大模式,API预计7月初开放。
HappyOyster 1.0 是阿里巴巴于2026年6月17日正式上线的世界模型产品。它的核心能力是:一句话或一张图,即可生成一个完整、可探索、可交互的数字世界。不同于文生视频"生成完就定稿",HappyOyster 生成的那一刻,体验才刚开始。
产品命名灵感来自莎士比亚名言"The world is your oyster"(世界是你的牡蛎,撬开它)。

HappyOyster 1.0 核心版本。
你就是世界里角色的一部分。第一人称、第三人称随你切,支持 1 分钟以上的实时位移与镜头控制。
新增的交互动作包括:前冲/加速、下蹲、攻击、跳跃,以及更复杂的环境交互——乘坐驾驶载具、使用各类武器战斗。
关键体验差异在于物理交互反馈。例如:出拳命中后对手会触发"踉跄倒退"的受击反应;人物可以使用火把道具,场景光照状态会完成合理切换;探险者走过厚雪覆盖的山脊,每步留下脚印、踩塌的雪扬起雪粉。
不管世界换成什么画风(写实、黏土风格、二次元),任何人都能一样地走进去、实时下指令。
你成为站在世界之上的导演。流式生成、即说即演,随时注入指令改走向。三大特性:
通过多模态参考(用 @图片 锁定角色外观),支持 3 分钟长程一致性。
文生视频学的是"文本 -> 视频"的单向映射,生成完就结束了。世界模型学的是:
当前状态 + 你的动作 -> 下一个状态 的转移规律
模型必须理解当前的场景结构、实体属性、物理关系,还要在你随时丢过来指令的情况下,准确预测并渲染世界的下一个状态。
HappyOyster 1.0 的技术优势可概括为四点:
1. 世界状态建模:把世界当前状态压缩成隐状态摘要(Latent State),每生成一段内容就更新并递归传递。状态摘要可序列化、可存档,这才让暂停、回溯和剧情分支成为可能。
2. 内生一致性:进入世界时给每个人物、每件关键道具发一张"身份卡",模型全程带着这张卡生成,角色转身、被挡住甚至走出画面过几分钟再出现时,长相、衣着都不会变样。
3. 开放因果动作空间:动作指令和自然语言共享同一套语义接口,不需要预定义动作集。模型通过大规模因果训练自己学会因果链(出手 -> 命中 -> NPC 受击倒地 -> 地面扬尘 -> 酒杯被震落)。
4. 长时序音视频协同:音画在同一世界状态下联合解码生成。脚踩碎石有碎石声,引擎加速有轰鸣,声音不是后期配的,是世界本身的一部分。
| 场景 | 价值 |
|---|---|
| 交互式游戏 | 一句话生成带实时物理反馈的开放世界原型,从以周计缩到以小时计 |
| 实时虚拟陪伴 | 生成随时可交互的虚拟角色,能听能说、长时间保持一致 |
| 互动短剧 | 暂停、回溯、分支三件套,一个开头分叉出多条故事线 |
| 直播 | 观众一句指令即时改变画面走向 |
| 文旅虚拟体验 | 月球表面、海底宫殿等拍不到的地方,在像素空间持续模拟 |

智谱发布GLM-5.2,支持百万token上下文窗口,Code Arena全球可用模型第一,MIT协议开源,开发者可自由部署商用。

Kimi Work 上线连续工作24小时的目标模式,新增插件中心支持百度网盘、钉钉、飞书等应用,6月所有任务额度5折。

火山引擎Kickart 3.0上线,支持对话式视频生成、爆款裂变、抖音电商合规预审,接入Seedance 2.0 mini,帮助商家一站式完成营销视频创作全流程。