首页 > 产品 > 问答 > 语音识别技术原理,语音识别是什么

语音识别技术原理,语音识别是什么

来源:整理 时间:2023-04-02 18:21:28 编辑:智能门户 手机版

本文目录一览

1,语音识别是什么

语音识别系统,用于识别你的话语执行程序
就是你说了一句话。然后识别出来。比如说你说:“打开XXX程序”识别过后。就会下达指令启动这个东西。也可以用来听写。说什么。就识别什么字出来。

语音识别是什么

2,手机是怎样来实现语音识别的

语音识别的方法有三种: 1) 基于声道模型和语音知识的方法、 2) 模板匹配的方法 3) 利用人工神经网络的方法。语音识别的步骤主要包括: 1) 语音信号预处理与特征提取; 2) 声学模型与模式匹配; 3) 语言模型与语言处理 语音识别的分类:语音识别系统可以根据对输入语音的限制加以分类。 从说话者与识别系统的相关性考虑 可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

手机是怎样来实现语音识别的

3,语音识别的声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。

语音识别的声学模型

文章TAG:语音识别技术原理语音语音识别语音识别技术

最近更新

相关文章