Fun-ASR1.5：方言也能精准转写的 AI 语音识别模型

from http import HTTPStatus
from dashscope.audio.asr import Transcription
import dashscope
import os
import json

dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")

task_response = Transcription.async_call(
    model='fun-asr',
    file_urls='https://example.com/your-audio.wav'
)

transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
    print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))

应用场景

会议纪要：智能标点 + 文本归一化，大幅减少后期校对工作量
新闻采访：嘈杂环境下也能准确转写，支持跨语种内容
教育领域：古诗词吟诵转写，助力国学教育和非遗文化传承
政务服务：方言热线转写，覆盖县域政务、乡村政务等场景
跨国协作：多语种会议记录，无需预设语言标签
内容制作：短视频字幕生成、播客转文字

Fun-ASR1.5 是什么

Fun-ASR1.5 方言识别能力

核心能力

方言识别：从"听不清"到"工业级可用"

覆盖汉语传统七大方言体系（官话/吴/湘/赣/客/闽/粤），深度适配 20+ 地区口音，包括四川话、闽南话、长沙话、苏州话、粤语等。

实测数据：

5 种方言准确率突破 90%
15 种方言准确率超过 80%
典型方言场景字错误率（CER）相对下降 56.2%
在 13 种方言上超越 Seed-ASR 和 Tencent-ASR

30 种语言 + 跨语言自由切换

支持中文、英语、日语、韩语、法语、德语、西班牙语等 30 种语言。在混合语种对话中，无需预设语种标签就能自动识别切换。

例如一段英日混合的对话，模型能准确区分并转写两种语言。

古诗词专项优化

对中文古诗词识别做了专门训练，构建了先秦至近代的古诗词语音-文本对齐语料库。内部评测字符级准确率达到 97%。

智能标点和文本归一化

标点预测：基于语义自动插入逗号、句号、问号等，"今天天气怎么样啊我想出去走走" -> "今天天气怎么样啊？我想出去走走，但又怕下雨。"
文本归一化：自动转换口语表达 -- "三千五百六十二" -> "3562"，"五万八千块" -> "58000元"

快速上手

在线体验

魔搭社区 Demo：https://modelscope.cn/studios/iic/FunAudio-ASR
阿里云百炼平台：https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

API 调用示例

通过阿里云百炼平台调用，几行代码即可接入：

from http import HTTPStatus
from dashscope.audio.asr import Transcription
import dashscope
import os
import json

dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")

task_response = Transcription.async_call(
    model='fun-asr',
    file_urls='https://example.com/your-audio.wav'
)

transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
    print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))

应用场景

会议纪要：智能标点 + 文本归一化，大幅减少后期校对工作量
新闻采访：嘈杂环境下也能准确转写，支持跨语种内容
教育领域：古诗词吟诵转写，助力国学教育和非遗文化传承
政务服务：方言热线转写，覆盖县域政务、乡村政务等场景
跨国协作：多语种会议记录，无需预设语言标签
内容制作：短视频字幕生成、播客转文字

全部

AI教程

AI产品

AI资源

Fun-ASR1.5：方言也能精准转写的 AI 语音识别模型

Fun-ASR1.5：方言也能精准转写的 AI 语音识别模型

Fun-ASR1.5 是什么

核心能力

方言识别：从"听不清"到"工业级可用"

30 种语言 + 跨语言自由切换

古诗词专项优化

智能标点和文本归一化

快速上手

在线体验

API 调用示例

应用场景

作者

分类

相关文章

AI记忆增强工具盘点与实战

Claude Code 从零上手：国内用户保姆级安装教程

GPT-Image-2 实操提示词指南：一句话出图

Fun-ASR1.5：方言也能精准转写的 AI 语音识别模型

Fun-ASR1.5：方言也能精准转写的 AI 语音识别模型

Fun-ASR1.5 是什么

核心能力

方言识别：从"听不清"到"工业级可用"

30 种语言 + 跨语言自由切换

古诗词专项优化

智能标点和文本归一化

快速上手

在线体验

API 调用示例

应用场景

作者

分类

相关文章

AI记忆增强工具盘点与实战

Claude Code 从零上手：国内用户保姆级安装教程

GPT-Image-2 实操提示词指南：一句话出图