阿里通义实验室发布 Fun-ASR1.5 语音识别大模型,支持 30 种语言、七大方言体系,方言字错误率下降 56.2%,古诗词准确率达 97%。附体验地址和 API 调用代码。


阿里通义实验室发布 Fun-ASR1.5 语音识别大模型,支持 30 种语言、七大方言体系,方言字错误率下降 56.2%,古诗词准确率达 97%。附体验地址和 API 调用代码。
过去,语音识别遇到方言就"抓瞎":上海话、闽南话、粤语一出口,转写结果经常是乱码或空白。阿里通义实验室最新发布的 Fun-ASR1.5 改变了这个局面。它是一个端到端语音识别大模型,单模型覆盖 30 种语言和汉语七大方言体系,方言场景字错误率相比上代下降 56.2%。
Fun-ASR1.5 是阿里千问端到端语音识别大模型的新一代版本,基于数十万小时真实语音数据训练。它不只是"能听清",更能"听得懂" -- 智能插入标点、自动归一化口语表达,输出的文本接近书面水平。

覆盖汉语传统七大方言体系(官话/吴/湘/赣/客/闽/粤),深度适配 20+ 地区口音,包括四川话、闽南话、长沙话、苏州话、粤语等。
实测数据:
支持中文、英语、日语、韩语、法语、德语、西班牙语等 30 种语言。在混合语种对话中,无需预设语种标签就能自动识别切换。
例如一段英日混合的对话,模型能准确区分并转写两种语言。
对中文古诗词识别做了专门训练,构建了先秦至近代的古诗词语音-文本对齐语料库。内部评测字符级准确率达到 97%。
通过阿里云百炼平台调用,几行代码即可接入:
from http import HTTPStatus
from dashscope.audio.asr import Transcription
import dashscope
import os
import json
dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")
task_response = Transcription.async_call(
model='fun-asr',
file_urls='https://example.com/your-audio.wav'
)
transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))