toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具972个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Fun-ASR1.5:方言也能精准转写的 AI 语音识别模型

2026/04/20
·toolin小编

阿里通义实验室发布 Fun-ASR1.5 语音识别大模型,支持 30 种语言、七大方言体系,方言字错误率下降 56.2%,古诗词准确率达 97%。附体验地址和 API 调用代码。

Fun-ASR1.5:方言也能精准转写的 AI 语音识别模型
Fun-ASR1.5:方言也能精准转写的 AI 语音识别模型
2026/04/20

Fun-ASR1.5:方言也能精准转写的 AI 语音识别模型

阿里通义实验室发布 Fun-ASR1.5 语音识别大模型,支持 30 种语言、七大方言体系,方言字错误率下降 56.2%,古诗词准确率达 97%。附体验地址和 API 调用代码。

Fun-ASR1.5 是什么核心能力方言识别:从"听不清"到"工业级可用"30 种语言 + 跨语言自由切换古诗词专项优化智能标点和文本归一化快速上手在线体验API 调用示例应用场景
AI产品

过去,语音识别遇到方言就"抓瞎":上海话、闽南话、粤语一出口,转写结果经常是乱码或空白。阿里通义实验室最新发布的 Fun-ASR1.5 改变了这个局面。它是一个端到端语音识别大模型,单模型覆盖 30 种语言和汉语七大方言体系,方言场景字错误率相比上代下降 56.2%。

Fun-ASR1.5 是什么

Fun-ASR1.5 是阿里千问端到端语音识别大模型的新一代版本,基于数十万小时真实语音数据训练。它不只是"能听清",更能"听得懂" -- 智能插入标点、自动归一化口语表达,输出的文本接近书面水平。

Fun-ASR1.5 方言识别能力

核心能力

方言识别:从"听不清"到"工业级可用"

覆盖汉语传统七大方言体系(官话/吴/湘/赣/客/闽/粤),深度适配 20+ 地区口音,包括四川话、闽南话、长沙话、苏州话、粤语等。

实测数据:

  • 5 种方言准确率突破 90%
  • 15 种方言准确率超过 80%
  • 典型方言场景字错误率(CER)相对下降 56.2%
  • 在 13 种方言上超越 Seed-ASR 和 Tencent-ASR

30 种语言 + 跨语言自由切换

支持中文、英语、日语、韩语、法语、德语、西班牙语等 30 种语言。在混合语种对话中,无需预设语种标签就能自动识别切换。

例如一段英日混合的对话,模型能准确区分并转写两种语言。

古诗词专项优化

对中文古诗词识别做了专门训练,构建了先秦至近代的古诗词语音-文本对齐语料库。内部评测字符级准确率达到 97%。

智能标点和文本归一化

  • 标点预测:基于语义自动插入逗号、句号、问号等,"今天天气怎么样啊我想出去走走" -> "今天天气怎么样啊?我想出去走走,但又怕下雨。"
  • 文本归一化:自动转换口语表达 -- "三千五百六十二" -> "3562","五万八千块" -> "58000元"

快速上手

在线体验

  • 魔搭社区 Demo:https://modelscope.cn/studios/iic/FunAudio-ASR
  • 阿里云百炼平台:https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

API 调用示例

通过阿里云百炼平台调用,几行代码即可接入:

from http import HTTPStatus
from dashscope.audio.asr import Transcription
import dashscope
import os
import json

dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")

task_response = Transcription.async_call(
    model='fun-asr',
    file_urls='https://example.com/your-audio.wav'
)

transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
    print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))

应用场景

  • 会议纪要:智能标点 + 文本归一化,大幅减少后期校对工作量
  • 新闻采访:嘈杂环境下也能准确转写,支持跨语种内容
  • 教育领域:古诗词吟诵转写,助力国学教育和非遗文化传承
  • 政务服务:方言热线转写,覆盖县域政务、乡村政务等场景
  • 跨国协作:多语种会议记录,无需预设语言标签
  • 内容制作:短视频字幕生成、播客转文字
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Fun-ASR1.5 是什么核心能力方言识别:从"听不清"到"工业级可用"30 种语言 + 跨语言自由切换古诗词专项优化智能标点和文本归一化快速上手在线体验API 调用示例应用场景

相关文章

AI记忆增强工具盘点与实战
AI教程

AI记忆增强工具盘点与实战

从Claude-Mem到DeepSeek DSA,盘点2026年主流AI记忆增强工具,附原理对比和选型建议。

avatar for toolin小编
toolin小编
3天前
Claude Code 从零上手:国内用户保姆级安装教程
AI教程

Claude Code 从零上手:国内用户保姆级安装教程

无需海外手机号和 Visa 卡,用国产模型也能跑 Claude Code。Mac 和 Windows 双平台完整安装流程,从安装框架到接入 GLM-5.1 全流程指引。

avatar for toolin小编
toolin小编
2天前
GPT-Image-2 实操提示词指南:一句话出图
AI教程

GPT-Image-2 实操提示词指南:一句话出图

整理 GPT-Image-2 最实用的提示词模板,涵盖运营图、产品海报、游戏UI、科普图等 8 大场景,拿来即用。

avatar for toolin小编
toolin小编
18小时前