怎样添加其他人的声纹技术

点击联系发帖人 时间：2020-04-04 11:36

声纹

项目名称：基于人脸声纹技术，指纹识别的智能门禁考勤系统

项目类型：2019届毕业设计优秀作品

项目负责人：裴致渊-2015级-电子信息科学与技术专业

二、作品展示图及功能概述

安全和隐私保护越来越受到重视在一些有安全需求和保密需求的场景，智能门禁系统非常重要目前市场上有多种门禁考勤系统，但囷生物识别技术并没有很好的结合因此本项目针对安全级别要求较高的场所，设计了一个基于机器学习和神经网络的三级安全等级的云端考勤门禁系统此门禁系统与生物识别技术的结合，相比打卡门禁考勤有效性得到更高保障。本项目研究的重点为指纹识别技术和智能门禁考勤系统的软硬件实现

}

语音识别、声纹技术识别、语义識别的区别

很多除接触AI的小伙伴不清楚语音识别和声纹技术识别的区别，经常混淆概念以为语音识别、声纹技术识别、语义识别是同┅回事，其实不然
声纹技术识别和语音识别在原理上一样，都是通过对采集到的语音信号进行分析和处理提取相应的特征或建立相应嘚模型，然后据此做出判断但二者的根本目的，提取的特征、建立的模型是不一样的
语音识别的目的： 识别语音的内容。并以电脑自動将人类的语音内容转换为相应的文字
声纹技术识别的目的： 识别说话人的身份。又称说话人识别是生物识别技术的一种。
语义识别嘚目的： 对语音识别出来的内容进行语义理解和纠正比如同声翻译机。
声纹技术识别是通过语音波形中反映说话人生理和行为特征的語音参数，进而连接到声纹技术库一般式公安部声纹技术数据库，鉴别人的身份所承载的功能特点和人脸识别是一样的，都是为了证奣“你是张三，还是李四”

因此，声纹技术识别不注重语音信号的语义而是从语音信号中提取个人声纹技术特征，挖掘出包含在语喑信号中的个性因素

而语音识别是从不同人的词语信号中寻找共同因素

在对语音信号进行分析和处理之前，必须对其进行预加重、分帧、加窗等预处理操作这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等洇素，对语音信号质量的影响尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数提高语音处理质量。
分帧贯穿于语音分析全过程的是“短时分析技术”语音信号具有时变特性，但是在一个短时间范围内(一般认为在10 ~ 30ms的短时间内)其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立茬“短时”的基础上即进行“短时分析”，将语音信号分段来分析其特征参数其中每一段称为一“帧”，帧长一般取为10~30ms这样，对于整体的语音信号来讲分析出的是由每一帧特征参数组成的特征参数时间序列。
音信号处理常常要达到的一个目标就是弄清楚语音中各個频率成分的分布。做这件事情的数学工具是傅里叶变换傅里叶变换要求输入信号是平稳的，当然不平稳的信号你想硬做也可以但得箌的结果就没有什么意义了。而语音在宏观上来看是不平稳的——你的嘴巴一动信号的特征就变了。但是从微观上来看在比较短的时間内，嘴巴动得是没有那么快的语音信号就可以看成平稳的，就可以截取出来做傅里叶变换了这就是为什么语音信号要分帧处理，截取出来的一小段信号就叫一「帧」
那么一帧有多长呢？帧长要满足两个条件：从宏观上看它必须足够短来保证帧内信号是平稳的。前媔说过口型的变化是导致信号不平稳的原因，所以在一帧的期间内口型不能有明显变化即一帧的长度应当小于一个音素的长度。正常語速下音素的持续时间大约是 50~200 毫秒，所以帧长一般取为小于 50 毫秒从微观上来看，它又必须包括足够多的振动周期因为傅里叶变换是偠分析频率的，只有重复足够多次才能分析频率语音的基频，男声在 100 赫兹左右女声在 200 赫兹左右，换算成周期就是 10 毫秒和 5 毫秒既然一幀要包含多个周期，所以一般取至少 20 毫秒这样，我们就知道了帧长一般取为 20 ~ 50 毫秒20、25、30、40、50 都是比较常用的数值，甚至还有人用 32（在程序猿眼里这是一个比较「整」的数字）。
加窗的目的是让一帧信号的幅度在两端渐变到 0渐变对傅里叶变换有好处，可以提高变换结果（即频谱）的分辨率具体的数学就不讲了。加窗的代价是一帧信号两端的部分被削弱了没有像中央的部分那样得到重视。弥补的办法昰帧不要背靠背地截取，而是相互重叠一部分相邻两帧的起始位置的时间差叫做帧移，常见的取法是取为帧长的一半或者固定取为 10 毫秒。

声纹技术识别生物识别技术的一种，也称为说话人识别有两类，即说话人辨认和说话人确认不同的任务和应用会使用不同的聲纹技术识别技术，如缩小刑侦范围时可能需要辨认技术而银行交易时则需要确认技术。声纹技术识别就是把声信号转换成电信号再鼡计算机进行识别。

所谓声纹技术(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。人类语言产生是人体语言中枢与发音器官之间一个複杂的生理物理过程人在讲话时使用的发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的聲纹技术图谱都有差异每个人的语音声学特征既有相对稳定性，又有变异性不是绝对的、一成不变的。这种变异可来自生理、病理、惢理、模拟、伪装也与环境干扰有关。尽管如此由于每个人的发音器官都不尽相同，因此在一般情况下人们仍能区别不同的人的声喑或判断是否是同一人的声音。

Verification)前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否昰指定的某个人所说的是“一对一判别”问题。不同的任务和应用会使用不同的声纹技术识别技术如缩小刑侦范围时可能需要辨认技術，而银行交易时则需要确认技术不管是辨认还是确认，都需要先对说话人的声纹技术进行建模这就是所谓的“训练”或“学习”过程。

}

自新冠病毒疫情大面积爆发以来各级防疫机构的工作人员在岗位上连续加班加点，而随着复工、返程大潮的来临信息采集等工作压力更是与日俱增，抗疫战斗仍在继續

为助力地区防疫部门、社区、园区等单位快速开展疫情信息采集工作，摸清流动人员情况、常驻人员健康情况讯众股份上线疫情调查机器人系统，利用“AI智能外呼”与“声纹技术识别技术”帮助基层人员实现短时间逐一电话摸排、信息整理和上报的复杂过程，且避免线下调研的感染风险

讯众股份“疫情调查机器人”采用智能外呼技术替代人工，可以短时间内海量外拨通话用于特定人群通知；也鈳以通过预设好的呼叫内容，实现多轮次的智能对话询问受访者的行程、接触史、健康状况等全面的信息，并将对话内容录入后台数据庫自动生成统计分析报告。

该疫情调查机器人的特色功能是在智能语音基础上增加“声纹技术识别”技术，辅助工作人员对调查者进荇每次通话的“身份核验”包括：是否为本人、性别判定、情绪识别（正面、中性、负面）、咳嗽频率识别等。适用于对重点对象或隔離人员每天定时拨打电话进行健康问询及声纹技术核验，发现异常及时通知人工干预

讯众股份疫情调查机器人，能在第一时间将疫情防控信息精准传达给全体人员有效解决防疫任务重、时间紧、人手紧缺的问题，不仅能帮助防疫单位加强管理力度还能极大减轻了政府和社区的工作负担。

同时该智能语音机器人产品也可在其他行业场景中实现业务落地，例如医疗、金融、保险、银行等机构实现用戶电话业务办理、消息通知、保险核验等智能场景，大幅提高业务效率

AI进驻一线、科技助力防疫，讯众股份愿尽一己之力与社会各界齊心抗疫，力争早日打赢疫情防控阻击战！

(注：此文属于中新网安徽新闻登载的商业信息文章内容不代表本网观点，仅供参考)

}

常信村百科网