MiniMax M3 搭载全新稀疏注意力架构MSA,支持1M上下文窗口,Coding能力超过GPT-5.5,国内首个齐备前沿三大能力的模型


MiniMax M3 搭载全新稀疏注意力架构MSA,支持1M上下文窗口,Coding能力超过GPT-5.5,国内首个齐备前沿三大能力的模型
MiniMax M3 今日正式发布。这款模型在编程和 Agent 任务上达到前沿水平,搭载全新稀疏注意力架构 MSA(MiniMax Sparse Attention),最高支持 1M 超长上下文,同时是原生多模态模型,支持图片和视频输入并能操作电脑桌面。
M3 是国内第一个同时具备前沿 Coding 能力、超长上下文和原生多模态这三大要素的模型。

MiniMax M3 在多个基准测试中的表现
在衡量 Coding 能力的国际权威评测中,M3 达到国际领先水平:
M3 在 Agent 端到端评测框架 Claw-Eval 上也得到最高分。
MSA 是 MiniMax 自研的稀疏注意力架构,解决了全注意力机制计算复杂度平方级增长的问题。它的核心优势:

MSA 与其他稀疏注意力方案的速度对比
在 100 万上下文下,M3 每 token 计算量仅为上代模型的 1/20。Prefilling 阶段加速超过 9 倍,Decoding 阶段加速超过 15 倍。
M3 从 Step 0 开始进行多模态混合训练,不是后接视觉编码器,而是让不同模态数据的语义空间天然融合。训练数据中的 Interleaved data(交错数据)对性能提升尤为关键,训练 Token 规模已提升至 100 万亿量级。
MiniMax 团队给 M3 丢了一篇 ICLR 2025 Outstanding Paper Award 获奖论文——Learning Dynamics of LLM Finetuning,让它独立复现。
M3 自主运行了接近 12 小时,全程无人干预,最终:
这个测试同时调动了 M3 的三大能力:1M 超长上下文(读完整篇论文)、顶级编程能力(写实验代码)、原生多模态(生成和解读实验图表)。
你可以在以下平台第一时间体验 MiniMax M3:
M3 在 Coding 能力上的提升不仅靠 Benchmark 训练。MiniMax 构建了交互式用户模拟器框架,模拟真实开发者在协作过程中的行为模式:
这让 Agent 不再只是被动执行指令,而是能够主动与用户协同完成任务。下一代 Agent Coding 比的不仅是代码生成,更是长期协作能力和人与 Agent 的协同效率。

全球最大开源AI Agent项目发布重大更新:Windows原生接入、技能工坊让Agent自我进化、多Agent工作板协同,16亿台PC变算力节点。

京东开源的AI长视频生成框架,一次生成长达5分钟的跨镜头音视频,支持局部修改,告别盲盒式抽卡。

阶跃星辰新模型输出速度达409 tokens/s,单任务成本为Claude Opus 4.6的1/9,编程能力达其97%,专为Agent高频调用场景设计。