已结束已结束开源ASR生产级调优与落地,TTS预算8万左右,ASR预算10万左右,大致这样,会根据对方实际能力调整
TTS预算8万左右,ASR预算10万左右,大致这样,会根据对方实际能力调整
一、企业介绍:
专注于人工智能技术、产品与服务的高新科技公司。公司一直致力于云计算、大数据及人工智能方向的前沿技术探索与行业应用,主要从事与大数据及人工智能相关的项目研发及运营服务,为客户提供稳定可靠的大数据和人工智能产品及服务。
二、核心内容:
1. 模型调优与优化;2. 实时识别能力优化;3. 工程化与性能优化;4. 并发与系统能力建设;
5. 稳定性与容错
一、项目背景
基于阿里开源语音识别框架(FunASR 或 Qwen-ASR),当前模型已具备基础识别能力,但尚未满足生产环境要求。现需对模型进行工程化优化与调优,使其在真实业务场景中稳定运行。
二、任务目标
对现有ASR系统进行全面优化,使其满足客服、语音机器人等场景的生产要求,包括但不限于低延迟、高准确率、高稳定性和高并发能力。
三、工作内容
1. 模型调优与优化
基于 FunASR / Qwen-ASR 进行模型优化(可涉及微调、解码优化等)
针对中文普通话及可能存在的口音进行识别优化
优化噪声环境(客服通话、电话音频等)下识别效果
支持热词增强(如业务关键词、人名、地名等)
2. 实时识别能力优化
支持流式识别(Streaming ASR)
优化端到端延迟
支持边说边出结果(低延迟 partial result)
3. 工程化与性能优化
支持 GPU / CPU 混合部署
支持批处理(batching)与动态批处理
推理加速(TensorRT / ONNX Runtime / CUDA优化等)
模型加载时间优化(冷启动优化)
4. 并发与系统能力建设
支持高并发请求处理
支持水平扩展(多实例部署)
提供服务化接口(HTTP / WebSocket / gRPC)
5. 稳定性与容错
异常音频处理(空音频、噪声、断流等)
服务限流与降级机制
日志与监控(QPS、延迟、错误率等)
四、核心技术指标
指标 要求
识别准确率(普通话) ≥ 95%(标准测试集)
噪声环境准确率 ≥ 90%
实时流式延迟 ≤ 200ms
完整句子延迟 ≤ 1.5s
并发能力 ≥ 300路并发(单机)
单路CPU占用 可控(需说明资源模型)
GPU利用率 ≥ 60%(高负载时)
稳定运行时间 ≥ 7×24小时无异常
五、交付内容
完整可部署ASR服务的源代码及安装包
模型与调优说明文档
接口文档(API说明)
性能测试报告(含压测数据)
部署方案(单机/集群)
代码及训练/调优脚本
使用示例代码
六、验收标准
按指标进行压测验证(提供测试脚本)
在指定数据集上验证准确率
实际业务音频抽样测试通过
连续稳定运行测试(至少72小时)
七、加分项
有FunASR/Qwen-ASR实战经验
有客服/呼叫中心语音项目经验
支持多语言/方言优化能力
支持端侧或边缘部署优化
一、企业介绍:
专注于人工智能技术、产品与服务的高新科技公司。公司一直致力于云计算、大数据及人工智能方向的前沿技术探索与行业应用,主要从事与大数据及人工智能相关的项目研发及运营服务,为客户提供稳定可靠的大数据和人工智能产品及服务。
二、核心内容:
1. 模型调优与优化;2. 实时识别能力优化;3. 工程化与性能优化;4. 并发与系统能力建设;
5. 稳定性与容错
一、项目背景
基于阿里开源语音识别框架(FunASR 或 Qwen-ASR),当前模型已具备基础识别能力,但尚未满足生产环境要求。现需对模型进行工程化优化与调优,使其在真实业务场景中稳定运行。
二、任务目标
对现有ASR系统进行全面优化,使其满足客服、语音机器人等场景的生产要求,包括但不限于低延迟、高准确率、高稳定性和高并发能力。
三、工作内容
1. 模型调优与优化
基于 FunASR / Qwen-ASR 进行模型优化(可涉及微调、解码优化等)
针对中文普通话及可能存在的口音进行识别优化
优化噪声环境(客服通话、电话音频等)下识别效果
支持热词增强(如业务关键词、人名、地名等)
2. 实时识别能力优化
支持流式识别(Streaming ASR)
优化端到端延迟
支持边说边出结果(低延迟 partial result)
3. 工程化与性能优化
支持 GPU / CPU 混合部署
支持批处理(batching)与动态批处理
推理加速(TensorRT / ONNX Runtime / CUDA优化等)
模型加载时间优化(冷启动优化)
4. 并发与系统能力建设
支持高并发请求处理
支持水平扩展(多实例部署)
提供服务化接口(HTTP / WebSocket / gRPC)
5. 稳定性与容错
异常音频处理(空音频、噪声、断流等)
服务限流与降级机制
日志与监控(QPS、延迟、错误率等)
四、核心技术指标
指标 要求
识别准确率(普通话) ≥ 95%(标准测试集)
噪声环境准确率 ≥ 90%
实时流式延迟 ≤ 200ms
完整句子延迟 ≤ 1.5s
并发能力 ≥ 300路并发(单机)
单路CPU占用 可控(需说明资源模型)
GPU利用率 ≥ 60%(高负载时)
稳定运行时间 ≥ 7×24小时无异常
五、交付内容
完整可部署ASR服务的源代码及安装包
模型与调优说明文档
接口文档(API说明)
性能测试报告(含压测数据)
部署方案(单机/集群)
代码及训练/调优脚本
使用示例代码
六、验收标准
按指标进行压测验证(提供测试脚本)
在指定数据集上验证准确率
实际业务音频抽样测试通过
连续稳定运行测试(至少72小时)
七、加分项
有FunASR/Qwen-ASR实战经验
有客服/呼叫中心语音项目经验
支持多语言/方言优化能力
支持端侧或边缘部署优化
*************
*************
评论
