热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >CPU 跑得比 Whisper GPU还快的开源语音识别,本地部署

CPU 跑得比 Whisper GPU还快的开源语音识别,本地部署

来源:互联网 更新时间:2026-06-12 14:04

FunASR这个开源语音识别工具包,最近给我的冲击不小。官方有句原话挺狠的:它在CPU上的速度,比Whisper在GPU上还快。更关键的是,它把VAD、识别、标点、说话人分离、情感分析这些能力,全打包进了一个调用入口里。折腾过本地语音方案的人应该深有体会——从Whisper到SenseVoice,再到Voicebox,这些工具各有千秋,但总会在某个环节让人头疼:要么缺功能,要么对中文方言支持不完美,要么没法把说话人分开。FunASR这次迭代,算是把这些痛点一并端上桌了。


先做个框架说明。FunASR来自阿里通义实验室的modelscope团队,定位相当明确:

工业级、开源、一站式

。它把语音识别拆成五个关键环节,然后用一个AutoModel把它们焊在一起。来看看这五个核心组件各自承担什么角色:

零件职能默认推荐模型
ASR(识别)把音频转成文字SenseVoice-Small / Paraformer / Fun-ASR-Nano
VAD(端点检测)找出哪段是人声,哪段是静音fsmn-vad
Punc(标点)给识别结果加标点ct-punc
Spk(说话人分离)区分谁在说话cam++
Emotion(情感)识别开心/悲伤/愤怒等情绪emotion2vec+large

不同于Whisper那种“一个大模型包打天下”的玩法,FunASR把每个环节做成独立可替换、可升级的模块,组合起来后,在GPU上能跑出170倍的实时速度。下图能直观看到这条流水线的咬合逻辑:

下面这张性能图则展示了Fun-ASR-Nano的表现——纵轴是错误率,越低越好;横轴是延迟,越靠左越好。左下角越靠近原点,意味着越能打:

总结下来,FunASR的核心能力集中在几个方向:

  • 速度表现突出

    :SenseVoice-Small在GPU上跑170倍实时(1小时音频,22秒内搞定),CPU上也能跑17倍实时——这对没有显卡的服务器来说,意义重大。
  • 多语言与方言覆盖

    :Fun-ASR-Nano支持31种语言,Qwen3-ASR拓展到52种语言并可自动检测,GLM-ASR-Nano则专门优化了17种方言。
  • 一站式处理

    :VAD切分、识别、标点、说话人分离,一次调用全部完成,不用再手动拼合pipeline。
  • 情感识别能力

    :emotion2vec+large能输出开心、悲伤、愤怒等情绪标签,在客服质检和直播分析场景中很实用。
  • 流式与离线双模式

    :paraformer-zh-streaming可跑WebSocket实时字幕,而paraformer-zh / SenseVoice适合离线长音频。
  • OpenAI兼容API

    :一行命令funasr-server --device cuda就能启动服务,接口形态与OpenAI Whisper API完全一致。
  • Agent集成友好

    :自带MCP服务可挂接Claude/Cursor,OpenAI兼容接口也能喂给LangChain、Dify、AutoGen这些框架。

安装

安装主线非常直接:

pip install funasr

如果希望跑源码版本(便于修改或运行examples),也可以走clone路线:

git clone https://github.com/modelscope/FunASR.gitcd FunASRpip install -e ./

环境需要满足Python ≥ 3.8、PyTorch ≥ 1.13以及torchaudio。如果想直接启动OpenAI兼容的服务,多装几个web依赖即可:

pip install funasr fastapi uvicorn python-multipartfunasr-server --model sensevoice --device cuda

服务默认启动在localhost:8000。不想在本地配环境的话,官方也提供了Colab一键体验链接,在浏览器里就能跑公开样例或上传自己的录音。

使用

把官方README中最实用的几种组合集成到下面,基本能覆盖90%的落地场景。

中文会议录音转写(VAD + 识别 + 标点 + 说话人)

from funasr import AutoModelmodel = AutoModel(    model="iic/SenseVoiceSmall",    vad_model="fsmn-vad",    spk_model="cam++",    device="cuda",)result = model.generate(input="meeting.wa v")

输出是带说话人标签和时间戳的结构化文本,会议纪要的后续处理可以直接拿这个当基础:

[00:00.4 → 00:03.8] 说话人0: 我们今天讨论一下 Q3 的计划[00:04.2 → 00:07.1] 说话人1: 好的,我有三个要点[00:07.5 → 00:12.3] 说话人0: 请讲,我们还有 30 分钟

多语言/方言(Fun-ASR-Nano)

如果追求更高精度或需要支持中文方言,可以换成Fun-ASR-Nano:

from funasr import AutoModelmodel = AutoModel(    model="FunAudioLLM/Fun-ASR-Nano-2512",    vad_model="fsmn-vad",    device="cuda",)result = model.generate(input="meeting.wa v")

批量跑长音频时,套一层vLLM加速效果明显:

from funasr.auto.auto_model_vllm import AutoModelVLLMmodel = AutoModelVLLM(    model="FunAudioLLM/Fun-ASR-Nano-2512",    tensor_parallel_size=1,)results = model.generate(["audio1.wa v", "audio2.wa v"], language="auto")

流式实时识别(边说边出字)

from funasr import AutoModelmodel = AutoModel(model="paraformer-zh-streaming", device="cuda")result = model.generate(    input="chunk.wa v",    cache={},    chunk_size=[0, 10, 5],)

chunk_size=[0, 10, 5]是流式场景中常见的延迟配置,搭配WebSocket可以做直播字幕。

情感识别

from funasr import AutoModelmodel = AutoModel(model="emotion2vec_plus_large", device="cuda")result = model.generate(input="audio.wa v", granularity="utterance")

直接输出情绪标签,做客服情绪监控非常方便。

部署成OpenAI兼容服务

funasr-server --model sensevoice --device cuda

用curl验证一下:

curl http://localhost:8000/v1/audio/transcriptions   -F file=sample.wa v   -F model=sensevoice   -F response_format=verbose_json

接口形态与OpenAI Whisper API完全对得上,老业务从云端ASR平移过来基本零改造成本。

测评数据

FunASR官方给出的性能表相当硬核:

模型GPU 速度CPU 速度对比 Whisper-large-v3

SenseVoice-Small

170 倍

实时

17 倍

实时
快 13 倍

Paraformer-Large

120 倍

实时

15 倍

实时
快 9 倍
Whisper-large-v3-turbo46 倍实时快 3.4 倍

Fun-ASR-Nano

17 倍实时3.6 倍实时快 1.3 倍
Whisper-large-v313 倍实时基准

这组数据画成柱状图后,差距更直观:

换个角度感受一下:1小时的会议录音,Whisper-large-v3需要4.6分钟处理,而SenseVoice-Small只需要21秒。这就是13倍的速度差距。

更值得注意的是,SenseVoice-Small在

CPU

上跑出的17倍实时速度,比Whisper-large-v3在

GPU

上跑出的13倍还快。这意味着没有显卡的中小公司也能搭起一个能扛量的ASR服务,对很多团队来说相当实用。

横向对比一下常见方案:

维度FunASRWhisper云端 API(讯飞/微软等)
速度

170 倍实时

13 倍实时~1 倍实时
说话人识别✅ 内置❌ 需要 pyannote✅ 额外付费
情感识别
语言数50+57因服务而异
流式识别✅ WebSocket
私有部署✅ MIT✅ MIT❌ 仅云端
费用免费免费¥0.04/分钟起
CPU 可用✅ 17 倍实时❌ 太慢不适用

优点非常明确:

  1. 一站式体验:VAD、识别、标点、说话人分离、情感全自带,省去了手动组装多个开源仓库的麻烦。
  2. 中文支持最强梯队:Paraformer系列基于阿里达摩院8年积累,方言、口音、噪声鲁棒性远超Whisper。
  3. CPU友好:没显卡也能用,部署门槛极低。
  4. 服务化彻底:funasr-server直接输出OpenAI兼容API,原本接Whisper的SDK可以无缝迁移。
  5. Agent集成友好:MCP服务、OpenAI API、Gradio Demo全部配齐。

当然,也有一些不太顺手的地方:

  1. 模型数量多,新手第一次接触容易迷路——建议直接看官方的模型选择指南。
  2. SenseVoice-Small虽然快,但参数量234M,与Whisper-large的1550M相比,体量小不少,复杂英文长音频的识别精度还是Whisper系列略有优势。
  3. Fun-ASR-Nano走vLLM加速效果最好,但vLLM自己的安装有一定门槛。
  4. 文档体系存在中英混排现象,部分API参数需要去examples目录里翻。

部署选型建议

针对不同场景,整理了一份简单的决策表:

场景推荐模型备注
中文会议录音转写Paraformer-zh + cam++ + ct-punc8年迭代的工业级模型
多语言/中文方言Fun-ASR-Nano(800M)31种语言包含方言
全球52语言Qwen3-ASR(1.7B)自动语言检测
直播实时字幕paraformer-zh-streaming流式WebSocket
情感分析/客服质检emotion2vec+large单独运行
没显卡的服务器SenseVoice-Small(CPU)CPU跑17倍实时
老Whisper业务平迁funasr-server + sensevoiceOpenAI兼容API

总结

很多语音识别开源项目,要么是Whisper套壳,要么只跑英文,要么只能跑离线或GPU、只做识别。FunASR的路径是把整个语音pipeline工业化,同时在方言支持、流式处理、说话人分离、情感识别、Agent接入这些维度上全部补齐。

有几个判断供参考:

  • 如果你是做国内语音应用、中文会议纪要、客服质检、直播字幕的——

    直接上手,没什么好犹豫的

  • 如果之前用Whisper但被速度卡住——

    用funasr-server把它当成Whisper兼容API,性能会带来明显提升

  • 如果你想做AI Agent听懂语音输入——

    MCP服务配合Claude/Cursor已经是现成的方案

  • 如果只是英文场景、单GPU离线转写——Whisper也够用,看个人偏好。
AI自动绘画大师
AI自动绘画大师

类型:益智休闲

大小:5.72MB

语言:简体中文

平台:互联网

游戏下载

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc