中文开源语音识别引擎 语音识别的技术原理是什么?
浏览量:2393
时间:2021-03-12 11:23:14
作者:admin
语音识别的技术原理是什么?
看图
- 编码:把语音变成向量
- 频域信息:人类是通过振动频率来判断声音的,所以要用傅里叶变换来完成时域频域之间的转换;
- 特征:如,MFCC是依照人耳的听声特点提出的filter。然后我们有了语音向量。
- 训练:从数据中学习对语音的判断,而不是用人工的规则。
- 声学模型(acoustic model):用于识别语音向量;可用GMM或DNN等方法来识别向量,用DTW或HMM或CTC来对齐(alignment)识别结果的输出(单词从何时开始,何时结束)
- 字典(dictionary):多数模型并不是以单词,而是以音素为识别单位。当识别出æ p l这三个音素时,利用字典,就可以判断出所说的词是apple。
- 语言模型(language model):我们在听老外说错误的中文时依然能够识别内容是因为我们有关于语法的知识,可以调整声学模型所识别出的不合逻辑的词语。这就是语言模型的作用
解码:用训练好的模型组合起来就可以通过判断新的语音向量,来识别语音了。
在电脑上如何进行语音识别?
有几种方法:使用电脑自带的功能、使用第三方软件、使用第三方网站。
无论是windows、Mac、还是Linux的一些发行版,都有自带的语音识别工具。但是这些工具普遍性能一般,准确率不怎么高。一般在控制面板、系统设置之类的菜单中就可以找到。
用第三方软件来语音识别更常见,效果也更好。讯飞、搜狗以及其他一些输入法厂商都提供了语音输入功能,可以借由连接远程服务器,直接把说话的内容转化为文字。准确率比系统自带的识别工具强一些。值得一提的是讯飞输入法,是中文语音识别效果最好的产品。
网络工具则更专注于把整段音频转化成文字。借助服务器的运算速度和庞大的语料库与算法,这些工具往往可以提供比单机语音输入更好的效果。
在这一类里推荐几个:
Google的autosub,可以把音频转化成文字,支持九十多种语言,速度很快。
讯飞听见,支持普通话和多种方言,有120分钟的免费使用时间,超过了需要付款。
IBM 的watson Speech to Text 使用的是Watson人工智能系统,可以支持不超过100M的文件。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。
上一篇
拼多多分析 淘宝数据分析