FunASR钉钉通义联合发布语音识别大模型

作者:互联网

2026-03-20

⼤语⾔模型脚本

Fun-ASR作为新一代语音识别大模型,凭借多行业术语识别与定制化训练能力,正在重塑企业级语音交互体验。下文将详细介绍其核心功能与技术优势。

Fun-ASR是什么

这款由专业语音团队研发的AI模型,通过海量跨行业音频数据训练,可精准识别包括互联网、家装、畜牧等十余个领域的专业术语。在保鲜行业测试中,识别准确率提升达18%,家装和畜牧领域亦有15%-20%的显著提升。其独特之处在于能结合企业数据优化推理过程,有效减少识别错误。模型支持1000+热词导入,并提供专属定制服务,通过企业真实语音数据持续优化算法性能。

该模型已深度集成至多款效率工具中,为企业用户提供稳定可靠的语音转写服务。技术团队近期完成核心升级,噪声环境下识别准确率达93%,支持31种语言混说,流式识别首字延迟仅160ms。开源的轻量化版本Fun-ASR-Nano-0.8B参数量压缩至0.8B,支持本地部署与定制微调。

Fun-ASR的主要功能

  1. 多行业术语识别:基于跨行业大数据训练,模型对保鲜、家装、畜牧等专业术语识别率提升15%-20%,支持千级热词库扩展,显著改善生僻词识别效果。
  2. 上下文感知优化:通过整合企业通讯录、知识库等信息进行智能推理,在授权前提下有效降低识别错误率,提供更精准的转写结果。
  3. 企业专属定制训练:采用端到端训练架构,可根据企业专属词汇(如品牌名、项目代号)优化模型,提升特定场景识别准确度。
  4. 多场景集成应用:作为核心语音识别引擎,已深度集成至智能会议、语音助手等功能模块,满足企业级应用的高标准需求。

Fun-ASR的技术原理

  1. 海量数据训练:基于上亿小时跨行业语音数据训练,确保模型对各领域专业术语的深刻理解。
  2. 行业共创优化:通过与多行业客户场景共创,持续优化在科技、汽车等领域的术语识别能力。
  3. 上下文推理优化:智能关联企业数据资源,有效规避常见的大模型幻觉问题。
  4. 端到端训练架构:支持利用企业真实语音数据进行算法迭代,持续提升专属词汇识别率。
  5. 自定义热词支持:提供千级热词导入功能,针对性优化特定术语识别效果。

Fun-ASR的项目地址

  1. GitHub仓库:https://github.com/FunAudioLLM/Fun-ASR
  2. HuggingFace模型库:https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512

Fun-ASR的应用场景

  1. 会议字幕与同传:实时精准转写会议内容,提供智能字幕和同传服务,提升会议效率。
  2. 智能纪要:自动提炼会议要点与行动项,大幅减少人工整理时间。
  3. 语音助手:支持自然语音交互,实现信息查询、日程管理等便捷操作。
  4. 家装与畜牧行业:准确识别"比利时进口Pulse脉冲入教"等专业表述,辅助企业分析客户需求。
  5. 保鲜行业:显著提升业务咨询语音识别准确率,优化客户服务流程。

从核心技术突破到多场景落地,Fun-ASR通过持续创新的语音识别方案,正在为企业数字化转型提供强力支撑。

相关标签:

Nano