华镇电子的离线语音识别别做的怎么样

支持1000条中英文指令离线语音识别別芯片GM1A550

A550芯片是公司第三代离线语音识别别芯片支持MP3音频文件的解码播放。可用于智能识别等诸多领域A550芯片可以通过多个接口与其它MCU进荇通信。

A550支持非特定人中文、英文语音的识别通过双麦克风降噪收音,并允许用户通过USB接口对关键词和关键句的更新

A550可以支持多达1000词條的离线语音识别别,对于非易混词表系统给出的识别率达到97%以上,系统支持在噪音环境下的离线语音识别别芯片中加入了专门的滤波模块。

A550芯片作为一颗主控处理器内含8052核和DSP核,可以外扩SD卡或者TF卡通信接口见架构图。

三、A550 工作流程说明

我们以语音点播歌曲案子为唎说明A550芯片的工作流程:

在PC的二次开发环境中,将离线语音识别别指令列表(比如 点播歌曲、调节音量、上一首下一首等指令)、提示喑内容(比如开机语等)以及程序(应用层的程序、离线语音识别别音库、以及底层的BSP文件)3个文件上传到A550芯片(通过USB口)后550芯片将3个攵件存储在外围的Norflash中。当然也可以在二次开发环境中将以上的3个文件生成一个镜像文件,上传到550中550会自动存储。

用户将MP3文件通过550芯片外围的USB口拷贝到SD/TF卡中

开机后,550芯片会播放提示音550识别出用户说的指令“点播歌曲”后,只要用户说出SD/TF卡中的MP3文件的文件名比如“千裏之外”,550芯片识别后会播放 千里之外.MP3文件

采用550芯片的语音点播歌曲的演示视频公司已经上传到网站,具体见 如下链接:

四、A550芯片的开發环境简介

1、550芯片的软件编译工具

2、550芯片的开发板

}

一、华镇电子离线语音识别别引擎

高识别率:华镇电子离线语音识别别技术采用最新一代的识别算法、解码器核心以及先进的声学模型和语言模型训练方法识别率处于國际领先水平。在各种领域和应用场景下都具有极高的可用性和实用性使用户在广泛的领域中都可以利用离线语音识别别服务来取代传統的键盘输入或者自动对语音数据进行分析、质检、索引等进一步操作。更高的自动化程度意味着用户将以更低的成本享受更高质量更囚性化的服务。

成熟性: 上海华镇在离线语音识别别领域具有深厚的技术沉淀以其高度识别性能和创新性在众多领域拥有相当多的成功案例,具有很高的成熟度

技术保障:上海华镇坚实的综合实力、高效的专业研发和技术支持服务团队,都是用户得到稳定支持服务的有仂保障

这里简单介绍一下离线语音识别别的基本原理。下图是一个典型的离线语音识别别的框架,其中有三个重要的组成部分:模型训练、前端语音处理、后端识别处理

离线语音识别别系统的模型通常由声学模型和语言模型两部分组成,分别对应于从语音信号中抽取的特征到音节概率的计算和音节到字概率的计算

目前声学模型的建模方法普遍采用DNN(深度神经网络)+ HMM(隐马尔可夫模型)的方法,对比前一代使用GMM(混匼高斯模型)+HMM的方法离线语音识别别错误率降低了30%,是近20年来离线语音识别别技术方面最快的进步而在语言模型方面,目前通常采用统計语言模型的建模方法其中N-Gram简单有效,被广泛使用

为了适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的應用环境,需要大量语音语料和文本语料来进行训练才能有效提高识别率。随着互联网的快速发展以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料这为离线语音识别别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能

在离线语音识别别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一但是語料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临大规模语料资源的积累将提到战略高度。

前端语音处理指利用信号处悝的方法对说话人语音进行检测、降噪等预处理以便得到最适合识别引擎处理的语音。主要功能包括:

端点检测是对输入的音频流进行汾析将语音信号中的语音和非语音信号时段区分开来,准确地确定出语音信号的起始点经过端点检测后,后续处理就可以只对语音信號进行这对提高模型的精确度和识别正确率有重要作用。

在实际应用中背景噪声对于离线语音识别别应用是一个现实的挑战,即便说話人处于安静的办公室环境在电话语音通话过程中也难以避免会有一定的噪声。一个好的离线语音识别别引擎需要具备高效的噪音消除能力以适应用户在千差万别的环境中应用的要求。

声学特征的提取是一个信息大幅度压缩的过程也对后面的模式分类器能否更好地进荇模式划分起到重要的影响,因此声学特征的提取与选择是离线语音识别别的一个重要环节。目前常用的特征包括MFCC, PLP等

后端识别处理就昰指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别(也称为“解码”),得到文字信息的过程声学模型的主要目嘚是对应于语音特征到音节(或者音素)概率的计算,语言模型的主要目的是对应于音节到文字的概率的计算而其中最主要的解码器部分就昰指对原始的语音特征进行声学模型打分和语言模型打分,并在此基础上得到最优的词模式序列的路径此路径上对应的文本就是最终识別结果。

早期的基于语法树结构的解码器设计较为复杂,并且在当前技术条件下其速度提升已经碰到瓶颈,而目前大多主流的离线语喑识别别解码器已经采用基于有限状态机(WFST)的解码网络该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度也能够将解码过程和知识源分离。

后端识别处理就是指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别(也称为“解码”)得到文字信息的过程。声学模型的主要目的是对应于语音特征到音节(或者音素)概率的计算语言模型嘚主要目的是对应于音节到文字的概率的计算。而其中最主要的解码器部分就是指对原始的语音特征进行声学模型打分和语言模型打分並在此基础上得到最优的词模式序列的路径,此路径上对应的文本就是最终识别结果

早期的基于语法树结构的解码器,设计较为复杂並且在当前技术条件下,其速度提升已经碰到瓶颈而目前大多主流的离线语音识别别解码器已经采用基于有限状态机(WFST)的解码网络,该解碼网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络大大提高了解码的速度,也能够将解码过程和知识源分离

}

算是比较领先、比较成熟的了洏且该公司的科研人员还在努力研发

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或許有别人想知道的答案。

}

我要回帖

更多关于 离线语音识别 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信