来源:互联网 更新时间:2026-06-12 14:04
FunASR这个开源语音识别工具包,最近给我的冲击不小。官方有句原话挺狠的:它在CPU上的速度,比Whisper在GPU上还快。更关键的是,它把VAD、识别、标点、说话人分离、情感分析这些能力,全打包进了一个调用入口里。折腾过本地语音方案的人应该深有体会——从Whisper到SenseVoice,再到Voicebox,这些工具各有千秋,但总会在某个环节让人头疼:要么缺功能,要么对中文方言支持不完美,要么没法把说话人分开。FunASR这次迭代,算是把这些痛点一并端上桌了。
先做个框架说明。FunASR来自阿里通义实验室的modelscope团队,定位相当明确:
| 零件 | 职能 | 默认推荐模型 |
|---|---|---|
| ASR(识别) | 把音频转成文字 | SenseVoice-Small / Paraformer / Fun-ASR-Nano |
| VAD(端点检测) | 找出哪段是人声,哪段是静音 | fsmn-vad |
| Punc(标点) | 给识别结果加标点 | ct-punc |
| Spk(说话人分离) | 区分谁在说话 | cam++ |
| Emotion(情感) | 识别开心/悲伤/愤怒等情绪 | emotion2vec+large |
不同于Whisper那种“一个大模型包打天下”的玩法,FunASR把每个环节做成独立可替换、可升级的模块,组合起来后,在GPU上能跑出170倍的实时速度。下图能直观看到这条流水线的咬合逻辑:

下面这张性能图则展示了Fun-ASR-Nano的表现——纵轴是错误率,越低越好;横轴是延迟,越靠左越好。左下角越靠近原点,意味着越能打:

总结下来,FunASR的核心能力集中在几个方向:
funasr-server --device cuda就能启动服务,接口形态与OpenAI Whisper API完全一致。安装主线非常直接:
pip install funasr如果希望跑源码版本(便于修改或运行examples),也可以走clone路线:
git clone https://github.com/modelscope/FunASR.gitcd FunASRpip install -e ./环境需要满足Python ≥ 3.8、PyTorch ≥ 1.13以及torchaudio。如果想直接启动OpenAI兼容的服务,多装几个web依赖即可:
pip install funasr fastapi uvicorn python-multipartfunasr-server --model sensevoice --device cuda服务默认启动在localhost:8000。不想在本地配环境的话,官方也提供了Colab一键体验链接,在浏览器里就能跑公开样例或上传自己的录音。
把官方README中最实用的几种组合集成到下面,基本能覆盖90%的落地场景。
from funasr import AutoModelmodel = AutoModel( model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda",)result = model.generate(input="meeting.wa v")输出是带说话人标签和时间戳的结构化文本,会议纪要的后续处理可以直接拿这个当基础:
[00:00.4 → 00:03.8] 说话人0: 我们今天讨论一下 Q3 的计划[00:04.2 → 00:07.1] 说话人1: 好的,我有三个要点[00:07.5 → 00:12.3] 说话人0: 请讲,我们还有 30 分钟如果追求更高精度或需要支持中文方言,可以换成Fun-ASR-Nano:
from funasr import AutoModelmodel = AutoModel( model="FunAudioLLM/Fun-ASR-Nano-2512", vad_model="fsmn-vad", device="cuda",)result = model.generate(input="meeting.wa v")批量跑长音频时,套一层vLLM加速效果明显:
from funasr.auto.auto_model_vllm import AutoModelVLLMmodel = AutoModelVLLM( model="FunAudioLLM/Fun-ASR-Nano-2512", tensor_parallel_size=1,)results = model.generate(["audio1.wa v", "audio2.wa v"], language="auto")from funasr import AutoModelmodel = AutoModel(model="paraformer-zh-streaming", device="cuda")result = model.generate( input="chunk.wa v", cache={}, chunk_size=[0, 10, 5],)chunk_size=[0, 10, 5]是流式场景中常见的延迟配置,搭配WebSocket可以做直播字幕。
from funasr import AutoModelmodel = AutoModel(model="emotion2vec_plus_large", device="cuda")result = model.generate(input="audio.wa v", granularity="utterance")直接输出情绪标签,做客服情绪监控非常方便。
funasr-server --model sensevoice --device cuda用curl验证一下:
curl http://localhost:8000/v1/audio/transcriptions -F file=sample.wa v -F model=sensevoice -F response_format=verbose_json接口形态与OpenAI Whisper API完全对得上,老业务从云端ASR平移过来基本零改造成本。
FunASR官方给出的性能表相当硬核:
| 模型 | GPU 速度 | CPU 速度 | 对比 Whisper-large-v3 |
|---|---|---|---|
SenseVoice-Small | 170 倍 | 17 倍 | 快 13 倍 |
Paraformer-Large | 120 倍 | 15 倍 | 快 9 倍 |
| Whisper-large-v3-turbo | 46 倍实时 | ❌ | 快 3.4 倍 |
Fun-ASR-Nano | 17 倍实时 | 3.6 倍实时 | 快 1.3 倍 |
| Whisper-large-v3 | 13 倍实时 | ❌ | 基准 |
这组数据画成柱状图后,差距更直观:

换个角度感受一下:1小时的会议录音,Whisper-large-v3需要4.6分钟处理,而SenseVoice-Small只需要21秒。这就是13倍的速度差距。
更值得注意的是,SenseVoice-Small在
横向对比一下常见方案:
| 维度 | FunASR | Whisper | 云端 API(讯飞/微软等) |
|---|---|---|---|
| 速度 | 170 倍实时 | 13 倍实时 | ~1 倍实时 |
| 说话人识别 | ✅ 内置 | ❌ 需要 pyannote | ✅ 额外付费 |
| 情感识别 | ✅ | ❌ | ❌ |
| 语言数 | 50+ | 57 | 因服务而异 |
| 流式识别 | ✅ WebSocket | ❌ | ✅ |
| 私有部署 | ✅ MIT | ✅ MIT | ❌ 仅云端 |
| 费用 | 免费 | 免费 | ¥0.04/分钟起 |
| CPU 可用 | ✅ 17 倍实时 | ❌ 太慢 | 不适用 |
针对不同场景,整理了一份简单的决策表:
| 场景 | 推荐模型 | 备注 |
|---|---|---|
| 中文会议录音转写 | Paraformer-zh + cam++ + ct-punc | 8年迭代的工业级模型 |
| 多语言/中文方言 | Fun-ASR-Nano(800M) | 31种语言包含方言 |
| 全球52语言 | Qwen3-ASR(1.7B) | 自动语言检测 |
| 直播实时字幕 | paraformer-zh-streaming | 流式WebSocket |
| 情感分析/客服质检 | emotion2vec+large | 单独运行 |
| 没显卡的服务器 | SenseVoice-Small(CPU) | CPU跑17倍实时 |
| 老Whisper业务平迁 | funasr-server + sensevoice | OpenAI兼容API |
很多语音识别开源项目,要么是Whisper套壳,要么只跑英文,要么只能跑离线或GPU、只做识别。FunASR的路径是把整个语音pipeline工业化,同时在方言支持、流式处理、说话人分离、情感识别、Agent接入这些维度上全部补齐。
有几个判断供参考:
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
免费影视剧APP推荐
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
抖音最火沙雕男生网名(精选100个)
帅气继父网名女生可爱英文(精选100个)
网络热词聊污是什么意思
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
免费看电影的软件推荐
我的末日校园海斗手游上线时间是哪天
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
晨字沙雕网名大全女生(精选100个)
短剧《情绪超市》剧情介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc