toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具992个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

StepAudio 2.5 ASR:5 分钟音频 2 秒转写,定价降至 0.15 元/小时

2026/04/24
·toolin小编

阶跃星辰发布新一代语音识别模型,推理速度提升 400%,支持 30 分钟音频一次性转写,定价仅为上代的 1/10

StepAudio 2.5 ASR:5 分钟音频 2 秒转写,定价降至 0.15 元/小时
StepAudio 2.5 ASR:5 分钟音频 2 秒转写,定价降至 0.15 元/小时
2026/04/24

StepAudio 2.5 ASR:5 分钟音频 2 秒转写,定价降至 0.15 元/小时

阶跃星辰发布新一代语音识别模型,推理速度提升 400%,支持 30 分钟音频一次性转写,定价仅为上代的 1/10

StepAudio 2.5 ASR 是什么核心功能30 分钟音频一次性转写中英混杂和复杂语句推理效率对比实际体验官方演示第三方实测应用场景定价快速上手
AI产品

如果你经常需要把会议录音、课程视频、采访素材转成文字,阶跃星辰刚发布的 StepAudio 2.5 ASR 值得关注。它的核心卖点很简单:快、便宜、准。推理速度比上代提升 400%,5 分钟音频几乎"一眨眼"就能转完,定价 0.15 元/小时 -- 只有上一代的 1/10。

StepAudio 2.5 ASR 是什么

StepAudio 2.5 ASR 是阶跃星辰发布的自动语音识别模型,基于 Audio Encoder + Linear Adapter + LLM + MTP-5 融合架构,将大语言模型的推理加速技术(Multi-Token Prediction)引入了语音识别领域。

核心参数:

指标数据
推理峰值500 tokens/s
速度提升约 400%(vs 上代)
时延降低60%
成本下降80%
最长一次性转写30 分钟
定价0.15 元/小时
支持语言中文、英文、中英混合
音频格式WAV、MP3、OGG、PCM

核心功能

30 分钟音频一次性转写

传统方案需要把长音频切片、分段识别、后期拼接,切割后的片段互相独立,容易造成上下文割裂和语义断层。

StepAudio 2.5 ASR 复用 LLM 原生 32K 上下文窗口,支持端到端一次性处理最长 30 分钟的连续音频,无需分段切割,全程保留完整上下文关联。

中英混杂和复杂语句

实测中对中英混杂的日常表达、绕口令等发音紧凑场景都能稳定识别,口语中的自然重复和口头复述特征也会被完整保留。

推理效率对比

官方数据显示推理效率高于 Qwen3 ASR(1.7B)、FunASR-Nano、Doubao-ASR-2603 等同类模型。

推理效率对比

实际体验

官方演示

在大段连续口述场景下,模型能实现长时间连贯输出,识别过程中文本还原稳定、语义完整,长音频转写质量均衡。

第三方实测

实测者选取了不同类型的音频进行测试:

实时录音模式(适合语音备忘、现场会议纪要):

  • 单次录音上限 2 分钟
  • 转写准确度较高,口语还原度好
  • 说话人停顿时会自动插入逗号

文件上传模式(适合课程录音、采访转写):

  • 支持 WAV、MP3、OGG、PCM 等格式
  • 单文件不超过 20MB
  • 部分音频上传后提示"未检测到清晰语音",稳定性有待提升

提示:实时录音场景下表现更稳定。如果文件上传失败,可以尝试先用其他工具转换音频格式后再上传。

应用场景

场景说明
会议纪要30 分钟内会议一次性转写
采访录音转写保留完整上下文,不会丢失语义
课程内容归档5 分钟课程"秒级"转写
语音备忘实时录音转写,2 分钟内快速记录
客服录音质检中英混合识别,成本极低

定价

0.15 元/小时,是上代 Step ASR 2(1.5 元/小时)的 1/10。

这个价格意味着:转写一场 2 小时的会议只要 0.3 元,一个月每天开 2 小时会也只要不到 10 元。

快速上手

  • 体验地址:阶跃星辰在线体验平台
  • 两种模式:实时录音(上限 2 分钟)和文件上传(上限 20MB,最长 30 分钟)
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
StepAudio 2.5 ASR 是什么核心功能30 分钟音频一次性转写中英混杂和复杂语句推理效率对比实际体验官方演示第三方实测应用场景定价快速上手

相关文章

DeepSeek-V4与GPT-5.5实测:同日发布的两大模型谁更强
AI产品

DeepSeek-V4与GPT-5.5实测:同日发布的两大模型谁更强

DeepSeek-V4与GPT-5.5同一天发布,开源对闭源的正面硬刚。推理、编程、长文本实测对比,帮你快速判断该用哪个。

avatar for toolin小编
toolin小编
1天前
329条GPT-Image-2提示词模板:工业级出图引擎
AI教程

329条GPT-Image-2提示词模板:工业级出图引擎

开源项目awesome-gpt-image-2逆向工程329条GPT-Image-2提示词,提供JSON/YAML结构化模板,支持Agent批量出图零幻觉。

avatar for toolin小编
toolin小编
1天前
GPT-5.5 深度解析:编程、Agent 与长上下文全面升级
AI产品

GPT-5.5 深度解析:编程、Agent 与长上下文全面升级

GPT-5.5 正式发布,Terminal-Bench 82.7% 夺冠,1M 上下文翻倍提升,Codex 搭配 gpt-image-2 开启图像驱动开发新工作流

avatar for toolin小编
toolin小编
2天前