python特征提取的方法有哪些 声音识别系统是根据什么原理制成的?
声音识别系统是根据什么原理制成的?
像大多数识别问题一样,音频识别分为几个步骤:
1.特征提取2。索引数据库3。搜索和模糊匹配4。识别结果的拼接特征提取算法很多,基于FFT的频域信息比较简单,值得进一步研究。频域信号提取出来后,因为频带太多,一般需要合并成几个大的频带。
比如飞利浦 算法是合并成32个频段。我之前做的系统是合并成6个频段,Shazam s是4个频带。特征的好坏直接影响识别效果,需要反复优化。
特征提取出来后,需要建立一个索引库来存储所有的特征,每个特征要对应一部分实际内容。
事实上,索引数据库往往非常大,因此通常不使用普通的关系数据库。我用了redis和python dict。因为查询太频繁,尽量不要上网。我之前做了一个系统,一个24小时的音频,数据库上的特征查询次数是几十亿到几百亿。上网是不可想象的。
搜索过程就麻烦多了,因为是多媒体数据。
具体来说,需要设计一种模糊匹配方法。很多因素都会导致提取的特征与原始特征之间产生误差,所以需要想办法减小误差对结果的影响。
比如FFT分段的过程会引入高频噪声,50Hz的工频也会引入噪声,所以我取FFT频段一般选择64~3300Hz的范围。
在模糊匹配方面,可以使特征中的每一个值/-1,然后生成很多子特征在索引数据库中查询。
上面的识别结果只是一些点,也就是说这个点匹配了一些结果,往往会有很多结果。
这时候就要把点连成段才是有意义的结果。
例如,如果你认识三个单词,中间的那个可以 你听不见我吗?你#34,并且索引数据库已经包含句子#34我爱你#34。那么从这些应该可以推断出,有一定的概率结果与索引数据库中的结果相同。
实际建立概率模型也是一个巨大的麻烦。中间跳过的不明点数量也是经验数据。
比如我试了一个点1/8秒,跳过六个点会产生很多误识别,但是跳过两个点会比不跳的识别率高很多。
我在过去的两年里设计了一个音频识别系统,包括上面所有的组件,用来识别电视节目中的广告。
在高峰期,索引库中大约有1000小时的音频。正确识别率在95%-98%之间波动,错误识别率在2%-3%之间波动。
输入24小时音频的识别时间约为5~10分钟。
数据分析方法有哪些?
想更好的了解传统数据和大数据的区别,去哪里找数据,可以用什么技术处理数据?
这些在处理数据时是必要的。迈出第一步,所以这是一个很好的起点,尤其是如果你正在考虑从事数据科学的职业!
"数据与信息是一个宽泛的术语,可以指 "原始事实和证据, "处理过的数据和or "信息与广告。为了确保我们在同一页上,让 让我们在进入细节之前把它们分开。
我们收集原始数据,然后对其进行处理以获得有意义的信息。
嗯,它 分开它们很容易!
现在,让我们 让我们进入细节吧!
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。