卷积神经网络 声纹识别技术主要技术部分有哪些?
浏览量:1277
时间:2021-03-14 06:10:39
作者:admin
声纹识别技术主要技术部分有哪些?
声纹的主要技术难点是如何从语音信号中提取和表达与说话人相关的信息。一般来说,提取一段语音中与说话人相关的特征主要按照图中所示的过程进行:对于采集到的语音,首先进行有效语音检测(VAD),去除采集到的语音中的非有效部分,然后进行声学特征提取。由于语音信号是一种短时非平稳、不定长的信号,特征提取通常采用加窗的方法来提取帧内特征。目前常用的声学特征有经典的Mel倒谱系数MFCC、当前感知预测系数PLP和基于深度学习的热特征深度特征。在得到声学特征后,进一步提取说话人信息。采用向量算法和带残差处理的深度卷积神经网络算法。在建模之后,我们可以对语音进行更深层次的特征表示,从而进一步呈现出与说话人相关的信息。最后,该模型可以将特征提取阶段得到的特征进一步转化为能够代表说话人特征的样本。这样,我们就可以将特定说话人的语音完全转化为能够代表说话人特征的模型。识别和匹配阶段相对容易理解。采集测试语音后,进行相应的特征提取操作,然后用模板库中的所有模板样本计算相似度距离,最后选择最近的一个作为最终决策结果。(如下图所示)]~][倒谱系数法]是利用倒谱系数进行信号处理和检测的方法。它是信号处理和信号检测的经典方法。倒谱信号经过对数运算后的傅里叶变换谱的逆傅里叶变换。倒谱系数的具体计算方法是先进行预处理,然后加窗、傅立叶变换,得到功率谱,再得到其自然对数,最后进行DCT变换。离散余弦变换(DCT)全称为离散余弦变换(DCT),是指将一组光强数据转换为频率数据,以了解光强的变化。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。