来源:互联网 更新时间:2026-06-12 14:43
聊语音识别,最近有个新东西值得关注——Hojo-ASR-V1。这是一个由初创团队Hojo开源的模型,架构上挺有意思:Whisper做特征提取,Qwen3-Omni负责音频编码,中间用Conformer做适配,最后由Qwen3-4B这个大语言模型来做解码。效果怎么样?数据说话:LibriSpeech Clean上词错误率只有1.74%,GigaSpeech 7.6%,VoxPopuli 7.02%,这个水平已经逼近顶尖大厂了。而且它支持本地部署,专门面向Agent工作流和语音输入场景。

具体能做到哪些事情?来看几个关键能力:
这套模型的技术流程其实很清晰,可以拆成四个环节:
整个流程听起来不复杂,但每个环节的配合才是真正的功夫所在。
想上手试试?步骤很简单:
HojoAI/Hojo-ASR-V1 或者GitHub HojoAI/Hojo-ASR 拿权重和代码。hojo_asr 和相关依赖库。hojo.load_model() 接口把模型加载到本地GPU或CPU上。跟同类产品比起来,它的核心竞争力在哪?梳理下来有几点:
想深入了解或者直接上手用,可以访问这两个地址:
拿它跟OpenAI Whisper做个快速对比,差异一目了然:
从模型架构上看,Hojo是“编码器 + 适配器 + LLM解码”的组合,而Whisper还是传统Encoder-Decoder结构。语义理解方面,Hojo有Qwen3-4B撑腰,能力明显更强;Whisper更多依赖纯声学映射,理解深度有限。中文优化这块,Hojo做了深度调优,口语化识别更强;Whisper虽然支持多语言,但中文细节处理一般。开源协议上,Hojo用Apache-2.0,Whisper是MIT。本地部署两者都支持,但Hojo需要一定显存/内存,Whisper生态更成熟。最关键的是榜单WER:Hojo在LibriSpeech Clean上做到1.74%,Whisper Large-v3大约2.1%——差距还是明显的。
落地场景也很清晰,几个典型方向:
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
帅气继父网名女生可爱英文(精选100个)
帅到极致的网名女生霸气(精选100个)
蒙古上单是什么梗
韩漫小少爷网名大全女生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
韦一敏是什么梗
网络热词聊污是什么意思
作家助手如何上传自制封面 作家助手如何设置小说的封面
抖音最火沙雕男生网名(精选100个)
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
如何在夸克浏览器中开启网页视频的倍速播放功能?
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
有寓意的易经网名男生(精选100个)
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
免费看电影的软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc