toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,146个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

CODA:让LLM和新手写出光速GPU内核

2026/05/25
·toolin小编

来自MIT和普林斯顿的开源项目,把Transformer训练中的散碎计算重写为GEMM-Epilogue模式,反向传播加速1.6-1.8倍

CODA:让LLM和新手写出光速GPU内核
CODA:让LLM和新手写出光速GPU内核
2026/05/25

CODA:让LLM和新手写出光速GPU内核

来自MIT和普林斯顿的开源项目,把Transformer训练中的散碎计算重写为GEMM-Epilogue模式,反向传播加速1.6-1.8倍

问题:训练大模型的"偷懒税"核心洞察:"尾声"里藏着宝藏五类可组合的"积木"LLM 能写 GPU 内核吗?实验结果适合谁
AI产品

GPU 内核优化一直是门槛极高的领域,通常需要资深 CUDA 工程师手工调优。来自 MIT、普林斯顿、Together AI 和 Meta 的研究者发布的 CODA 项目,试图改变这个局面 -- 用一套编程抽象,让 LLM 甚至新手也能为 Transformer 写出高性能 GPU 内核。

FlashAttention 核心作者 Tri Dao 在转发时直接说:"LLM 和新手就可以编写光速内核。"

论文地址:arxiv.org/abs/2605.19269 代码地址:github.com/HanGuo97/coda-kernels

问题:训练大模型的"偷懒税"

在一块 H100 上训练 LLaMA-3 风格的 1B 参数模型,矩阵乘法(GEMM)和注意力确实占主要算力。但性能分析器会揭示一批安静的"时间杀手":RMSNorm、SwiGLU、RoPE、残差加法、跨层规约。

训练时间分布

这些操作单个计算量不大,却频繁把大型中间张量从显存搬进搬出。这就是内存带宽瓶颈 -- 好比厨艺绝顶的厨师,每做一道菜都要把食材从远处仓库搬来搬去。

随着 FP8、FP4 等低精度格式让矩阵计算越来越快,这些"搬运"操作的相对成本反而在上升。PyTorch 把 Transformer 表达成一串算子序列,算子之间的边界恰好阻止了跨算子的融合优化。

核心洞察:"尾声"里藏着宝藏

GPU 上高性能矩阵乘法(GEMM)内核分两部分:

  • 主循环(Mainloop):核心的矩阵分块乘加计算
  • 尾声(Epilogue):结果写回显存前的收尾处理(加偏置、类型转换等)

GEMM-Epilogue结构

尾声存在的意义:此时矩阵乘法的输出还"活在"片上寄存器里,还没落地到全局显存。这是一个短暂的黄金窗口 -- 如果能在这个时刻多做计算,就能省掉一次显存写入再读出的往返。

CODA 的核心洞察:Transformer 里那些内存密集型操作,可以被代数地重新参数化,塞进"尾声"窗口里执行。

以最常见的 GEMM-RMSNorm-GEMM 模式为例,RMS 归一化中的行缩放因子 r 和后面的矩阵乘法满足交换律,可以把 r 的应用推迟到第二个 GEMM 的尾声。这样完整的 RMSNorm 计算就消失了。

计算融合示意

五类可组合的"积木"

CODA 不是某个具体的融合内核,而是一套编程抽象。它固定住经过专家优化的 GEMM 主循环,然后在尾声位置暴露五类可组合的原语:

原语类型用途
逐元素变换残差加法、激活函数、RoPE
向量加载与存储广播 RMSNorm 权重
矩阵分块加载与存储保存中间激活供反向传播使用
分块规约局部均方根、分块 log-sum-exp
有状态变换在线归一化所需的 max 和 sum-exp 统计

用这五类积木,标准 Transformer 前向和反向传播中除注意力之外的几乎所有操作都能被覆盖。

LLM 能写 GPU 内核吗?

论文评估了两种实现模式:

  • CODA (LLM):由 Claude Code 生成,研究者提供原语说明、示例和实现日志,AI 完成主体代码,人工轻度监督
  • CODA (Human):人工程序员独立编写,使用同样的重参数化思路

LLM 生成的内核在大多数基准上与人工手写版本不相上下,个别配置下甚至略有超越。在 GPU 内核优化这个历来门槛极高的领域,这是一个罕见的结论。

实验结果

基准测试选择了苛刻的对手:cuBLAS + torch.compile、Liger Kernel、FlashInfer。

性能对比数据

关键数据:

  • GEMM-RMSNorm-GEMM:在 1B、7B、70B 三个模型规模的隐藏维度下均超越 cuBLAS + PyTorch 基线
  • 反向传播收益尤为突出:GEMM-Residual-PartialRMS-GEMM 反向内核相比基线加速 1.6 至 1.8 倍
  • SwiGLU 反向:约 1.4 至 1.6 倍提升
  • LLM 与人工实现差距微小,在反向传播方向上几乎一致

反向传播性能

适合谁

  • 训练大模型的团队,想压榨 GPU 性能的最后一丝潜力
  • GPU 内核优化新手,想用高层次抽象写出高性能代码
  • 想验证"AI 能不能写 GPU 内核"这个命题的研究者

参考链接:

  • 论文
  • 代码仓库
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
问题:训练大模型的"偷懒税"核心洞察:"尾声"里藏着宝藏五类可组合的"积木"LLM 能写 GPU 内核吗?实验结果适合谁

相关文章

Codex 进阶玩法:让 AI Agent 替你全天候工作
AI教程

Codex 进阶玩法:让 AI Agent 替你全天候工作

OpenAI Codex 团队成员公开完整工作流,涵盖长期线程管理、Heartbeats 定时任务、Goal 模式和本地知识库搭建,帮你把 Codex 从工具变成全职 AI 员工。

avatar for toolin小编
toolin小编
2天前
Harness工程:AI编程成功率从20%飙到100%
AI教程

Harness工程:AI编程成功率从20%飙到100%

Anthropic和OpenAI同时验证的结论:AI编程智能体失败的原因不在模型,在Harness。五步搭建你的第一个Harness配置

avatar for toolin小编
toolin小编
7小时前
Codex多机协作:如何真正用完AI会员额度
AI教程

Codex多机协作:如何真正用完AI会员额度

用4台Mac搭建Codex多机协作系统,从调研规划到批量视频生成,让AI会员从'续费焦虑'变成'持续产能'

avatar for toolin小编
toolin小编
7小时前