
MiniMax 开源生产级办公文档引擎,支持 Word/Excel/PPT/PDF 四大格式,采用 MIT 协议,生成文档可直接交付
MiniMax 把他们在 Office 文档生成上踩过的所有坑,全部开源了。
这不是一个 demo 级的玩具项目,而是一套在生产环境跑过多轮自动化测试的完整解决方案。用户说一句"帮我写一份 Q3 策略报告",它就能从内容组织、排版控制到最终输出,生成可直接交付的文档。
使用 Agent 处理文档,最难的不是写不出来,而是写出来不能用:
文件能打开,但没办法作为最终交付产出。
MiniMax 搭建的这套 Office Skills,就是为了解决这个问题——让生成出来的文档真正经得住交付。
完整开源包括:
GitHub 地址:https://github.com/MiniMax-AI/skills
为什么不用 python-docx?
python-docx 是社区最常见的方案,轻量易用。但当需求推进到复杂表格嵌套、多级目录、页眉页脚控制、修订追踪时,有些功能它不支持,有些支持但生成的文档结构容易出错。
.NET OpenXML SDK 是微软官方维护的底层库,对 ECMA-376(Word 文件格式的官方标准)实现最完整。虽然部署成本更高(需要 .NET 运行环境),但换来的是对 Word 文档结构更完整、更可靠的控制力。
覆盖场景:
配套提供了 OpenXML 格式参考手册、中日韩排版指南、10+ 可直接运行的示例代码。
![]()
为什么不用 openpyxl?
Openpyxl 是社区最常见的方案,但有一个工程上很难接受的问题:文件读入再写回后,一些高级内容会被静默丢弃。
比如一个包含数据透视表、迷你图、VBA 宏的 Excel 文件,被 openpyxl 打开再保存,这些东西可能就没了,甚至没有报错提示。
解决方案:绕开所有 Python Excel 库,直接在 XML 层面操作。
.xlsx 文件本质是一个压缩包,里面是一组 XML 文件。做法是:
这样每次编辑只动需要动的地方,样式、图表、宏都原封不动保留。
关键点:公式处理
很多方案会把公式提前算好,存一个静态数字。MiniMax 要求每一个派生值都必须是真正的 Excel 公式(如 SUM(B2:B9)),这样用户打开文件后还能正常编辑和联动。
为此开发了 13 个独立的 Python 工具脚本,覆盖解压打包、列插入、行偏移、公式校验、动态重算、格式审计等环节。

PDF 的核心挑战在于需要做出一套可复用、可扩展的设计系统。MiniMax 为 15 种文档类型设计了独立的视觉语言,每一种都有对应的封面模式、字体和配色方案。
技术实现:
拆成两套引擎,系统更复杂,但封面可以大胆做设计,正文仍然保持工程稳定性。
PPT 生成的难点不在于往 slide 上放内容,而在于视觉风格的统一。字体大小、间距、配色、圆角弧度,任何一个地方不一致,整份演示文稿看起来都会很粗糙。
解决方案:先定义约束体系,再做生成。
页面类型:5 种标准类型
风格配方:4 套配方
每套配方定义了圆角半径、阴影参数、边框粗细、间距比例等一整套数值。切换配方,就能整体改变一份 PPT 的视觉调性。
技术实现基于 PptxGenJS(JavaScript 生态里功能最完整的 PPT 生成库)。
构建一个 skill 不难,真正的挑战在于:你怎么知道它下一轮是不是更好了?
MiniMax 搭了一套固定的三阶段循环:Execute → Evaluate → Fix
工作方式:
这套机制能够让 Skills 的迭代围绕失败样例持续收敛。每一轮跑下来,都能更清楚地知道问题出在结构、公式、样式,还是模板约束上。
达标标准:
一个 xlsx 文件即使成功保存,如果数据透视表丢了、公式被写成了静态数字,在真实交付里都算失败。
这四个 Skill 已在 MiniMax Agent 与 MaxClaw 中上线,可以直接体验:https://agent.minimaxi.com
在企业领域,MiniMax 服务了超大规模(生产系统中超 10 万亿级记录、亿级文档)的文档办公、头部企业移动办公应用等。
在某严苛的办公场景端到端评测中,通用方案准确率只有 60-70%,而 MiniMax 实现了 99.8% 的召回率。
这次开源最大的价值,不在于"又多了一个开源项目",而在于 MiniMax 把生产环境踩过的坑全部暴露出来,并给出了经过验证的解决方案。
为什么选 .NET 而不是 python-docx? 为什么直接操作 XML 而不是用 openpyxl? 为什么 PDF 要拆成两套引擎?
每一个技术选型背后,都是真实场景倒逼出来的决策。这些经验,比代码本身更有价值。
适合谁用:
不适合谁:
如果你也在做 AI 文档生成,或者正在头疼文档生成出来总是不能直接用,这个仓库值得仔细研究。
GitHub:https://github.com/MiniMax-AI/skills 协议:MIT 体验地址:https://agent.minimaxi.com 模型调用:https://platform.minimaxi.com/subscribe/token-plan

MaxClaw接入微信只需三步:添加weixin-connect技能、输入指令获取二维码、扫码配对,支持语音互动和多账号部署

北邮、北大团队提出 STAGE 框架,通过预测「起始-结束帧对」解决多镜头视频连贯性问题,已录用至 CVPR 2026。

Anthropic推出Computer Use功能,Claude可自动操控电脑执行任务,支持手机远程控制,已向Pro和Max用户开放