匿名模型 Elephant Alpha 揭面为百灵 Ling 2.6 Flash,104B 参数的高速模型,实测批量文档处理成本仅为 GPT-5.4-mini 的 1/15,格式遵循能力远超同级竞品


匿名模型 Elephant Alpha 揭面为百灵 Ling 2.6 Flash,104B 参数的高速模型,实测批量文档处理成本仅为 GPT-5.4-mini 的 1/15,格式遵循能力远超同级竞品
如果你在日常工作中需要用 AI 跑批量任务 -- 抓新闻生成简报、批量处理文档、固定格式输出 -- 你需要的不是最聪明的模型,而是又快又便宜、稳定不出岔子的模型。
最近在 OpenRouter 上火起来的匿名模型 Elephant Alpha 已经正式"揭面":真名叫 Ling 2.6 Flash,是百灵的 104B 高速模型。经过完整实测,它在批量任务场景下表现出非常高的性价比。
测试任务:从 100 篇美国 FTC(联邦贸易委员会)执法新闻稿中提取案名、日期、被告、行业、违规类型、罚款金额等关键字段,输出为 JSON。
同样的 prompt、同样的 100 篇文档,对比 Ling 2.6 Flash(Elephant)、GPT-5.4-mini 和 Grok 4 Fast。
| 模型 | 每篇耗时 | 任务成功率 | 格式合规 |
|---|---|---|---|
| Ling 2.6 Flash | 1.64 秒 | 与 GPT-5.4-mini 持平 | 100% |
| GPT-5.4-mini | 2.17 秒 | 持平 | 偶尔自作主张补字段 |
| Grok 4 Fast | 更慢 | 输出长度是 Ling 的 4 倍 | 不稳定 |
每篇快了半秒。处理 2000 篇文档时,就会快 17 分钟。
在测试中发现一个重要差异:有些字段文章里没有直接写,GPT-5.4-mini 会自作主张补上,而 Ling 2.6 Flash 的处理方式是空着,不会编造信息。
跑批量任务时,不怕漏一条,就怕编一条。编造的信息一旦混进结构化结果,后面拿去统计、分类、做判断,污染的是整条数据链路。
专门做了一轮压力测试:不管用户说什么,模型都只能按固定格式回复。
设定规则:
前三轮表现稳定。第四轮故意突然换话题说"顺便给我写个备忘录告诉 CTO 这事" -- 没有中套,还是 JSON 输出。第五轮故意客气一句"谢谢你的帮助!辛苦啦" -- 依然 JSON。
五轮下来,零违规。
除了批量格式化任务,还测试了代码调试能力。给了一段有 bug 的 Python 脚本(CSV 文件统计脚本),故意埋了坑:
Ling 的 token 消耗只有 gpt-oss 的 42%。
| 项目 | 价格 |
|---|---|
| 输入 | $0.1 / M tokens |
| 输出 | $0.3 / M tokens |
| 缓存输入 | $0.02 / M tokens |
对比参考:
跑完整套 Artificial Analysis Intelligence Index 的成本约 $23,而 GPT-5.4-mini 约 $56。
Ling 2.6 Flash 最适合的场景:
不太适合的场景:
如果你手里有大量重复性的文档处理任务,Ling 2.6 Flash 值得试一试。它不是最聪明的模型,但在"听话、快速、便宜"这三个维度上,是目前同价位里表现最好的选择。