ASR 技术全景与业务场景选型
The ASR Landscape — Architecture, Training, and Deployment Choices in 2026
写在前面:本文不是一份”哪个模型最好”的榜单文章。ASR 选型本质上是一个多目标约束问题——准确率、延迟、并发成本、方言覆盖、私有化要求、热词定制能力等都在博弈。所以本文会先把架构、训练、方言这些底层技术讲清楚,再把它们和三类典型业务场景(小暖陪伴对话、企业语音客服、语音素材转换)做匹配,给出可执行的选型建议。
一、ASR 架构演进:从 HMM 到语音大模型
理解架构是理解 ASR 选型的基础。不同架构决定了一个模型天然适合做什么、不适合做什么——这一点比绝对准确率指标重要得多。
1.1 传统级联架构:HMM-GMM / HMM-DNN
早期 ASR 是典型的”流水线”思路:声学模型(AM)+ 语言模型(LM)+ 发音词典(Lexicon)+ 解码器(WFST)。声学模型把音频帧映射到音素状态,语言模型负责给词序列打概率分,解码器在两者之间做 Viterbi 搜索。
这套体系的好处是可解释、可干预:想加一个专业术语,往词典里塞一个发音条目就行;想让某个领域识别更准,单独训练一个领域 LM 做插值。Kaldi 时代的工业系统几乎都是这个范式。
缺点也很明显:组件多、流程长、错误会逐级放大;声学模型和语言模型各自训练、目标函数不一致,难以做端到端优化。
1.2 端到端架构:CTC / RNN-T / AED
端到端时代的三个主流范式必须搞清楚,因为它们直接决定了模型是否支持流式、延迟是多少、能不能输出时间戳。
CTC(Connectionist Temporal Classification):编码器 + CTC 损失。每一帧独立预测一个 token(或 blank),通过 CTC 对齐去除重复和空白得到最终序列。优势是结构简单、天然流式、推理快;劣势是有”条件独立性假设”——每帧预测互不相关,对语言建模能力弱。WeNet 早期、很多端侧模型都用 CTC。
RNN-T(RNN Transducer)/ Transformer Transducer:编码器 + 预测网络(类似语言模型)+ 联合网络。它解决了 CTC 的条件独立问题,且天然支持流式。Google 的 Gboard 语音输入、很多手机端 ASR 都是 Transducer。劣势是训练复杂、显存占用大、对训练数据量敏感。
AED(Attention Encoder-Decoder):编码器 + 注意力解码器,类似机器翻译。Whisper、FireRedASR-AED 都属于这一类。优势是精度上限高、语言建模能力强、容易引入 LLM;劣势是自回归解码慢、原生不支持流式(需要 chunk-based attention 等改造)、容易”幻觉”(出现训练语料里高频但音频中没有的词)。
Paraformer(非自回归 NAR):阿里达摩院在 INTERSPEECH 2022/2023 提出的单步非自回归架构。先用 CIF(Continuous Integrate-and-Fire)预测目标序列长度,然后一次性并行解码所有 token。Paraformer 是 FunASR 的自研核心模型,相比自回归模型实现了 12 倍推理加速。在 AISHELL test 上 CER 为 1.95%。这是中文 ASR 工业部署能跑高并发的关键——同样的硬件,NAR 能扛比 AR 多得多的 QPS。
1.3 语音大模型架构:ALM 时代
2024 年后出现的 SenseVoice、Qwen3-ASR、FireRedASR 等,本质上是把 ASR 重构成”语音版 LLM”。
SenseVoice 路线:保持 NAR 思想,把 ASR 扩展成多任务模型——同时输出语种、情感、音频事件标签。SenseVoice 是 2024 年发布的基础语音理解模型,具备多项突破性能力:多语言支持(中文、英文、粤语、日语、韩语)、多任务处理(ASR、语种识别、情感识别、音频事件检测)。这种”一把梭”的设计在产品侧极其友好——你做客服质检本来要串三个模型,现在一个就够。
Qwen3-ASR 路线:把 ASR 编码器接在 LLM(Qwen3-Omni)的底座上。Qwen3-ASR-Flash 模型来源于 Qwen3-Omni 模型,是基于 Qwen3-Omni 构建的专注于语音识别的模型。带来的好处不只是精度,而是上下文理解能力——它能理解”前文提到了’阿司匹林’,所以这里的’拜阿’大概率是拜阿司匹林”。Qwen3-ASR 在复杂声学/语言场景:面对老人/儿童语音、极低信噪比、鬼畜重复等挑战场景,仍能稳定输出,保持极低的字/词错误率,这一点对老人语音特别重要。
FireRedASR 路线:小红书走的是双轨制,AED 版本追求极致精度,LLM 版本追求中文 SOTA。FireRedASR 在 AISHELL-1 上 CER 已达 0.57%,但需要权衡推理成本。
1.4 架构选择的本质
记住三句话:
- 需要流式(边说边出字):CTC / Transducer / Paraformer-streaming / 改造过的 chunk-AED;纯 AED 不行。
- 追求极致精度,对延迟不敏感:AED 或 ALM 类大模型;非自回归在精度上限上会略低于自回归大模型。
- 追求高并发低成本:NAR(Paraformer、SenseVoice)有显著优势,SenseVoice-Small 非自回归架构和 ONNX 量化带来了碾压级的推理速度优势,特别适合需要低延迟响应的场景,SenseVoice-Small 推理速度极快,70ms 处理 10 秒音频。
二、训练范式:数据决定下限,预训练决定上限
绝大多数 ASR 选型失误,根源不在模型架构,而在训练数据和你的业务场景不匹配。所以训练机制必须看懂。
2.1 监督学习时代的瓶颈
经典 ASR 训练依赖对齐的语音-文本对。AISHELL-1(170 小时)、LibriSpeech(960 小时)这种公开数据集培育了一代模型,但相比真实业务里的方言、口音、噪声、专业领域,远远不够。最直接的后果是:实验室 CER 1.95%,到了你的电话客服场景可能飙到 15%。
2.2 弱监督与大规模训练:Whisper 范式
OpenAI 用 68 万小时网络弱标注数据训练 Whisper,Whisper 是一种自动语音识别 (ASR) 系统,根据从网络收集的 680,000 小时多语言和多任务监督数据进行训练。使用这种大规模且多样化的数据集,能够提升模型在口音、背景噪音及专业术语方面的稳健性。这条路线证明了:当数据规模上一个数量级,鲁棒性可以从架构改进里”白嫖”出来。
Whisper 的训练里有个细节值得借鉴:他们把 ASR、VAD、语种识别、语音翻译当成多任务来训,用特殊 token 控制行为。这种思路被后来的 SenseVoice、Qwen3-ASR 全盘继承。
2.3 自监督预训练:Wav2Vec2 / HuBERT / 语音基础模型
自监督路线(Wav2Vec2、HuBERT、WavLM)先用海量无标注音频做掩码预测预训练,再用少量标注数据做微调。这条路在低资源语种和方言上特别有价值——你只需要几十小时的方言标注数据,就能把一个预训练好的语音基础模型微调到可用。
emotion2vec 这类情感识别模型本质上也是这套范式。FunASR 工具包里就集成了 emotion2vec 作为情感识别模块。
2.4 ALM 时代的训练新范式
Qwen3-ASR、FireRedASR-LLM 这类模型的训练分三步:
- 语音编码器预训练:在百万小时级数据上学语音表征(如 Qwen3-ASR 的 AuT 编码器);
- 跨模态对齐:把语音表征对齐到 LLM 的文本空间;
- 指令微调:让模型听懂”这是粤语,请转写”、“用繁体输出”这类指令。
这种范式的好处是模型行为可指令化——传统 ASR 要换语言/方言就得换模型,ALM 一个模型搞定。代价是模型变大、推理成本上升。
2.5 业务定制:热词、领域适配、增量训练
真实业务中,几乎没人直接用开箱即用的模型。热词(hotword/biasing) 是最低成本的定制手段:在解码时给一个词表加权,让”小暖”、“思必驰”、“利伐沙班”这种 OOV 词或低频专业词能被识别出来。FunASR 的 Paraformer 原生支持热词,Qwen3-ASR 模型对通用词汇识别好,但遇到公司名、产品代号、学术名词(如”ResNet50”、“LoRA 微调”)易出错,镜像支持上传简易词典进行强制纠正。
更深度的定制要走 LoRA 微调或领域全参微调。FunASR 提供完整的微调脚本;ALM 类模型则可以走 LLM 那套 PEFT 工具链。

三、方言支持:被低估的工程难点
方言是中文 ASR 最难啃的骨头。它不是”加个方言数据微调一下”那么简单。
3.1 方言难在哪
- 音系差异:粤语九声、闽南语八音、吴语浊音清化——这些都不在普通话的声学空间里。
- 词汇差异:粤语的”嘅、咁、佢”,川话的”啷个、要得”——这些词在普通话训练语料里根本不存在。
- 混说现象:实际场景里,老年人很少说”纯方言”,往往是方言基础 + 普通话词汇 + 地方化发音,这对模型的 robust 要求极高。
- 数据稀缺:公开方言标注数据比普通话少 2-3 个数量级,且质量参差。
3.2 主流方案的方言能力对比
根据公开评测(注意:方言评测因数据集不同会差异很大,这里给定性结论):
| 模型 | 方言覆盖 | 备注 |
|---|---|---|
| Qwen3-ASR | 22 种中文方言 | Qwen3-ASR-1.7B 多语言识别实测:22 种方言轻松搞定,ALM 范式 |
| FireRedASR v2 | 20+ 种 | FireRedASR v2 自带 VAD、标点、语种识别的一体化方案 |
| Fun-ASR / Fun-ASR-Nano | 7 种方言 + 26 种口音 | 工程化最成熟 |
| Paraformer | 主普通话 | 单独方言模型可选,川话等有专门微调版本 |
| SenseVoice | 中/英/粤/日/韩 | 粤语效果不错,其他方言弱 |
| Whisper | 名义支持 | 实际中文方言效果差,Whisper-Large-v3 在中文场景下精度也明显弱于国产方案 |
特别提示:没有一个模型在所有方言上全面领先。方言场景下,不同方言的优劣排序不同——上海话场景 Fun-ASR(7.7B)反而最好(12.55%),歌词识别 FireRedASR 优势明显(1.12%)。如果你的业务方言集中在某 1-2 种,最好的做法是针对性评测而不是看综合榜单。
3.3 方言落地的工程建议
- 业务方言 ≤ 2 种且场景固定 → 找垂直方言模型 + 业务数据微调;
- 业务方言 ≥ 5 种或不确定 → Qwen3-ASR / FireRedASR v2 这类 ALM 通用模型;
- 老人场景的方言混说 → 优先考虑 Qwen3-ASR,它的 LLM 底座对”半方言半普通话”的鲁棒性最好。
四、主流方案横向对比(2026 视角)
这一节给一张可以直接拿去做选型 PPT 的对比图。
4.1 开源方案矩阵
| 模型 | 架构 | 精度(普通话 CER) | 流式 | 方言 | 情感 | 显存 | 适用场景 |
|---|---|---|---|---|---|---|---|
| Paraformer-zh | NAR | ~3-4% | ✅ streaming 版 | 弱 | ❌ | 低 | 通用中文识别、流式语音助手 |
| SenseVoice-Small | NAR | ~3-5% | ❌(离线为主) | 中/英/粤/日/韩 | ✅ | 极低 | 客服质检、情感分析、端侧 |
| Fun-ASR-Nano | NAR | ~3% | ✅ | 7 种方言 | ❌ | 中 | 工业转写、歌词识别 |
| FireRedASR-AED-L | AED | ~0.57%(AISHELL) | ❌ | 20+ 方言 | ❌ | 高 | 极致精度、媒体转写 |
| FireRedASR-LLM | ALM | ~2.89% | ❌ | 20+ 方言 | ❌ | 很高 | 顶级精度需求 |
| Qwen3-ASR-0.6B | ALM | 优秀 | ✅ | 22 种方言 | 间接 | 中 | 高并发、多方言、复杂场景 |
| Qwen3-ASR-1.7B | ALM | SOTA | ✅ | 22 种方言 | 间接 | 高 | 顶级中文 ALM |
| Whisper-large-v3 | AED | ~10-15%(中文偏弱) | ❌ | 名义 99 语种 | ❌ | 高 | 多语种、跨境业务 |
| Whisper-large-v3-turbo | AED | 略低于 v3 | ❌ | 同上 | ❌ | 中 | 多语种快速转写,decoder 层从 32 减至 4,速度接近 tiny |
4.2 商业 API:什么时候该买、什么时候该自建
商业 API(阿里云一句话识别、腾讯云 ASR、火山引擎、微软 Azure Speech)的价值在三件事:
- 零运维:不需要养 GPU、不需要负责模型升级;
- SLA 兜底:高峰期不会因为你的服务器扛不住而崩;
- 生态集成:腾讯云 ASR 默认带电销质检、内容审核等增值能力。
但商业 API 的痛点也很现实:
- 单价随并发线性增长,到一定规模后自建反而便宜;
- 私有化部署成本高,数据敏感场景(医疗、金融)走不了公有云;
- 定制空间有限,热词、领域适配往往按”专属版本”额外收费;
- 音频要上传,对一些合规场景是禁区。
经验阈值:日均音频时长 < 500 小时,用商业 API 划算;日均 > 2000 小时或数据合规要求高,自建明显划算;中间区间看具体定价和团队能力。

五、业务场景选型:三个真实案例
5.1 场景一:小暖(老人陪伴 AI)—— 难在哪、怎么选
业务特征:
- 用户群体:60+ 老人,语速慢、停顿多、方言混说概率高;
- 交互形态:语音优先,要求端到端响应 < 1.5 秒(含 ASR + LLM + TTS);
- 场景声学:家庭环境,电视背景音、空调风声、远场拾音;
- 内容特点:日常聊天 + 健康咨询 + 偶尔涉及医学术语(药名、症状);
- 可靠性要求:识别错误若发生在医疗相关内容上,可能造成实际伤害(治未病、用药建议必须 100% 谨慎)。
ASR 选型分析:
延迟是第一约束。在 LiveKit/WebRTC 链路中,ASR 必须流式输出,并且能配合 VAD 做”早停”决策——一旦检测到用户说完,立刻把最后一段 partial result 提交给 Dify chatflow,否则首字延迟会突破 1.5 秒红线。
推荐组合:Paraformer-streaming + FSMN-VAD + emotion2vec + 热词 作为基线方案。理由:
- Paraformer-streaming 是目前中文流式 NAR 里工程最成熟、社区文档最全的,FunASR 团队官方维护,和 FunASR/SenseVoice 同源工具链;
- FSMN-VAD 配合 Paraformer-streaming 是黄金搭档,端点检测延迟可压到 300ms 以内;
- emotion2vec 作为旁路接入,识别老人情绪(孤独、焦虑、愉悦),让 Dify 做差异化回复;
- 热词词表必须维护好:常用药名(拜阿司匹林、二甲双胍、利伐沙班)、家人称呼、社区名、医院名都进热词。
进阶方案:SenseVoice-Small(离线模式)+ Paraformer-streaming(在线模式)双轨。SenseVoice 用于”复盘回看”——每天夜里把白天对话重新跑一遍 SenseVoice,提取情感曲线、关键事件,反哺老人健康档案。这对治未病、用药顺从性管理价值极大。
方言场景:如果小暖要进入特定地区(如沛县方言、潮汕方言)下沉市场,可以考虑加一个 Qwen3-ASR-0.6B 作为”方言兜底”——当 Paraformer 置信度低于阈值时,把音频转给 Qwen3-ASR 二次识别。这种 fallback 链路成本可控,覆盖能力大幅提升。
避坑提示:
- 老人语速慢,VAD 的静音超时阈值不要照搬默认值(默认 500ms 可能把老人”想词”的停顿误判为说完),建议加到 800-1200ms 并做用户级自适应;
- 医疗相关识别结果必须经过关键词后处理——例如识别出”阿司匹林”后,强制 Dify 走医疗安全 chatflow,绝不允许 LLM 直接给剂量建议;
- 拒识/兜底要做好:如果 ASR 置信度低,TTS 出”我没听清,能再说一遍吗”,而不是让 LLM 强行回答。
5.2 场景二:企业语音客服
业务特征:
- 音频质量:电话音频,8kHz 采样率为主,编解码损失大;
- 声学复杂度:客服中心环境噪声、客户家中环境噪声、双人通话(坐席 + 客户);
- 业务要求:实时质检、关键词监控、合规审计、坐席话术评估;
- 规模:日均通话时长可能 5000+ 小时,并发坐席数百到数千;
- 合规要求:金融/医疗客服场景对私有化部署有硬性要求。
ASR 选型分析:
客服场景有三个核心子任务,每个对应不同的 ASR 配置:
- 实时识别(坐席提示):要求低延迟,准确率次之;
- 离线质检(事后分析):要求高准确率,延迟无所谓;
- 声纹分离/角色识别:必须区分客户和坐席。
推荐组合(高规模、私有化):
- 实时链路:Paraformer-streaming(8kHz 专版)+ FSMN-VAD + CAM++ 说话人分离 + 热词系统;
- 离线链路:Fun-ASR-Nano 或 FireRedASR-AED-L + SenseVoice(情感识别)+ ct-punc(标点恢复)+ 关键词检索系统;
- 方言兜底:Qwen3-ASR-1.7B 作为方言通话的二次识别。
为什么不直接用 Whisper? Whisper 在语言覆盖广度和识别稳定性上依然强大,特别是对于小语种。但其自回归解码方式导致速度慢,不适合实时应用。电话客服中文场景,Whisper 不是合适选择。
推荐组合(中小规模、起步快):
- 直接用阿里云一句话识别 / 腾讯云 ASR 商业 API,按调用付费;
- 用 SenseVoice 自建一个情感质检旁路——夜间批量跑前一天通话,提取愤怒、不满情绪的通话出来做人工复核。
热词管理是客服 ASR 的成败关键。一个保险公司的产品名(“金生有约”、“鑫享福”)、一个银行的业务名(“私行尊享”、“经营贷”)——这些词如果识别错,所有下游质检模型都白搭。建议建立热词的版本化管理系统:每周根据漏识别 case 更新一次词表,自动灰度上线。
避坑提示:
- 电话 8kHz 音频不要直接喂 16kHz 模型——必须用 8kHz 训练的专版,或者上采样后用降噪模型预处理(但降噪本身可能引入失真);
- 双说话人重叠(barge-in)是客服 ASR 噩梦,目前没有完美方案,工程上的妥协是用 AEC(声学回声消除)+ 双通道分离;
- 合规录音要保留原始音频 + ASR 结果 + 时间戳三件套,不要只存文本。
5.3 场景三:语音素材转换(媒体/会议/教育转写)
业务特征:
- 音频质量:高质量录音(16kHz/24kHz/48kHz),有时是录音棚级;
- 内容多样性:会议记录、播客、视频字幕、有声书、采访;
- 核心需求:准确率压倒一切,延迟无所谓(可以是分钟级甚至小时级处理);
- 附加需求:精确时间戳、说话人分离、标点恢复、专业术语;
- 规模:批量处理,吞吐量比延迟重要。
ASR 选型分析:
这个场景是精度模型的主场。流式、低延迟在这里都不重要,可以放心用 AED 和 ALM。
推荐组合(中文为主):
- 顶级精度:FireRedASR-LLM 或 FireRedASR-AED-L,FireRedASR 在 AISHELL-1 上 CER 已达 0.57%(LLM 版本普通话平均 CER 2.89%,AED 版本 3.05%),但需要 GPU,且音频有时长限制;
- 方言/混合场景:Qwen3-ASR-1.7B,对老人/儿童语音、复杂场景鲁棒;
- 多语种内容:Whisper-large-v3 或 v3-turbo,whisper-large-v3-turbo 在保持与 whisper-large-v3 近乎一致的识别质量基础上,实现了高达 8 倍的速度提升,跨境素材首选;
- 完整流水线:FunASR 的 AutoModel 串联 VAD(fsmn-vad)+ ASR + 标点(ct-punc)+ 说话人分离(CAM++),SenseVoice 模型支持语言自动识别,可处理中文、英文、粤语等多种语言客服需求。
对于”语音素材转换”业务(无论是访谈、会议、视频字幕),最佳实践是分三层:
- 预处理层:响度归一化、降噪(RNNoise 或 DeepFilterNet)、声道分离;
- 识别层:主模型(FireRedASR / Qwen3-ASR)+ VAD + 标点 + 说话人分离;
- 后处理层:基于 LLM 的纠错(用 Qwen / DeepSeek 把识别文本 + 音频信息送进去做错别字订正)、术语统一、格式化输出(SRT / VTT / Markdown)。
LLM 后处理是被严重低估的提升手段。一段 8% CER 的转写文本,扔给 GLM-4 或 DeepSeek 做”基于上下文的语义纠错”,能压到 3-4%。成本几乎可以忽略不计(输入 token 便宜)。
避坑提示:
- 时间戳要”句级”不要”词级”:词级时间戳在长音频上累积误差大,且对字幕场景没价值。Qwen3-ForcedAligner 这类强制对齐工具是更好的选择;
- 说话人分离不要追求绝对完美:3-4 人会议能区分对就行,超过 6 人基本无解,工程上接受”未知发言人”标签;
- 专业术语必须维护词典:医学、法律、技术领域的术语错一个,整段都废,热词 + LLM 后处理双保险。
六、部署架构建议
讲完模型选型,最后说一下部署。这部分容易被忽略,但部署架构往往决定了你的服务能不能扛住生产流量。
6.1 端侧 vs 云端
- 端侧(手机、嵌入式):sherpa-onnx + SenseVoice-Small / Paraformer,sherpa-onnx 是中文 ASR 端侧部署覆盖平台最广的方案,集成了 Paraformer 系列(多个变体)、SenseVoice 等中文模型,完全离线运行,不需要网络连接。适合隐私敏感、弱网场景。
- 云端 GPU:FunASR 官方 Docker 服务,或者 vLLM 部署 ALM 类模型。
- 云端 CPU:SenseVoice ONNX 量化版可以在 CPU 上跑实时,对成本敏感的场景很划算。
6.2 实时流式服务架构
小暖这类语音对话场景,推荐架构:
客户端 → LiveKit/WebRTC → 服务端音频网关
↓
FSMN-VAD(端点检测)
↓
Paraformer-streaming(partial result)
↓
Dify chatflow(意图识别 + 路由)
↓
LLM(Qwen3 / DeepSeek)
↓
CosyVoice(TTS)
↓
LiveKit 推流回客户端
关键工程点:
- partial result 要做防抖:每 200-300ms 推一次,避免前端频繁刷新;
- VAD 和 ASR 共用音频缓冲,不要重复送两次;
- ASR 服务要支持热重载词表,业务方加热词不能重启服务;
- GPU 资源池化:用 NATS 做请求队列,多模型实例共享 GPU 显存。
6.3 离线批处理架构
语音素材转换场景,推荐架构:
对象存储(OSS)音频文件
↓
Dkron 调度 / 任务队列
↓
预处理(降噪、归一化、分段)
↓
ASR Worker 池(GPU 节点,FireRedASR / Qwen3-ASR)
↓
后处理(标点、说话人、LLM 纠错)
↓
结果存储(结构化 JSON + SRT/VTT)
关键工程点:
- 分段策略要智能:按 VAD 的静音点切,不要机械切片——虽然模型支持 10 分钟音频,但超过 5 分钟时,内存压力增大,偶发超时,推荐采用”智能分段”而非机械切片;
- 批处理优于流式:把多段音频 batch 后送进 GPU,吞吐量提升 3-5 倍;
- 失败重试和断点续传:长音频处理过程中可能 OOM 或网络抖动,必须支持续传。
七、决策框架:你应该问的五个问题
不要看完文章直接抄方案。先回答这五个问题:
- 延迟红线是多少? < 500ms 首字延迟 → 必须流式 NAR;< 3s 端到端 → 流式 NAR + 工程优化;可接受分钟级 → 任意精度模型。
- 方言/口音占比多少? > 30% → Qwen3-ASR / FireRedASR v2;< 10% → Paraformer / SenseVoice 足够。
- 私有化部署是否强制? 是 → 开源模型自建;否 → 商业 API 起步,规模上来再迁移。
- 日均音频时长? < 500 小时 → 商业 API;500-2000 小时 → 混合方案;> 2000 小时 → 自建。
- 是否需要附加能力(情感、说话人、事件检测)? 需要 → SenseVoice 或 FunASR 全套流水线;不需要 → 单一 ASR 模型即可。
八、写在最后
ASR 这个领域在 2024-2026 这两年发生的变化,比之前十年加起来还多。随着领域的快速发展,Paraformer 在中文识别精度上已不是最新 SOTA(如 FireRedASR 在 AISHELL-1 上 CER 已达 0.57%),但 FunASR 的优势在于工具包层面的模型组合和部署能力。这句话点出了一个本质——单一模型的精度优势是脆弱的,工具链和工程化能力是持久的。
对小暖这类项目,我的建议是把架构做成可替换的:今天用 Paraformer-streaming,明天可能切到更好的方案,但 VAD、热词、情感识别、后处理这些工程组件应该稳定下来。模型层用适配器模式包装,业务层别和具体模型耦合。
ASR 不是一次性选型,是一个持续演进的系统。每三个月回头看一次有没有更好的开源模型,每半年重新评估一次商业 API 价格——这事儿没有终局。
💬展开评论 / Show comments