语音识别与声纹识别语音识别与声纹识别重庆第二师范学院数学与信息工程系Contents5 语音数据挖掘语音数据挖掘4 语音合成语音合成3 声纹识别声纹识别2 语音识别语音识别1 语音信号处理根底语音信号处理根底语音识别语音识别声纹处理声纹处理1 语音信号处理根底语音信号处理根底内容提示1.1 语音信号的产生1.2 语音信号的感知了解1.3 语音信号的线性产生模型1.4 语音信号的非线性产生模型了解语音语音信号信号处理处理根底根底1 语音信号处理基础语音信号的根本概念语音信号的根本概念l 语音:人们讲话时发出的话语叫语音是一种人语音:人们讲话时发出的话语叫语音是一种人们进展信息交流的声音,是组成语言的声音们进展信息交流的声音,是组成语言的声音/带有带有语言信息的声音语言信息的声音语音语音(Speech)=(Speech)=声音声音(Acoustic)+(Acoustic)+语言语言(Language)(Language)语音是由一连串的音素组成语言的声音语音是由一连串的音素组成语言的声音对语音的研究对语音的研究对语音的研究包括两个方面对语音的研究包括两个方面 1)1)语音中各个音的排列由一些规那么所控制,对语音中各个音的排列由一些规那么所控制,对这些规那么及其含义的研究称为语言学这些规那么及其含义的研究称为语言学(linguistics)(linguistics)。
语言学是语音信号处理的根底例如:语言学是语音信号处理的根底例如:可以利用句法和语义信息减少语音识别中搜索匹配可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率范围,提高正确识别率2)2)语音中各个音的物理特性和分类的研究称为语音语音中各个音的物理特性和分类的研究称为语音学学(phonetics)(phonetics)它考虑的是语音产生、语音感知它考虑的是语音产生、语音感知等过程,以及各个音的特征和分类等过程,以及各个音的特征和分类1 语音信号处理基础对语音的研究对语音的研究l语音学根本内容包括:语音学根本内容包括:l发音语音学发音语音学 确定发音机理确定发音机理 l声学语音学声学语音学 信号分析理论解释语音现象信号分析理论解释语音现象l听觉语音学听觉语音学 认识感知的过程认识感知的过程l语音学和语音信号处理联系更加严密如:运语音学和语音信号处理联系更加严密如:运用现代信号处理技术建立发音的数学模型,确用现代信号处理技术建立发音的数学模型,确定发音方法;用声学和非平稳信号分析理论来定发音方法;用声学和非平稳信号分析理论来解释各种语音现象;语音信息的存储形式等解释各种语音现象;语音信息的存储形式等。
1 语音信号处理基础 语音信号的产生1 语音信号处理基础n 人类的说话过程分五个阶段人类的说话过程分五个阶段 想说想说 说出说出 传送传送 接收接收 理解理解语音交流是通过联结说话人和听话人的一连串心理、语音交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的生理和物理的转换过程实现的大脑中枢大脑中枢发音器官发音器官空气空气听觉器官听觉器官大脑中枢大脑中枢 语音信号的产生1 语音信号处理基础n语音的发音器官肺和气管:能量源 咽喉:震动源,包括声带和声门声道:谐振腔,声门到嘴唇的呼吸通道,包括咽腔、口腔、鼻腔等其他发音器官:包括唇、齿、舌、面颊等,使谐振腔改变形状与箫、唢呐比较 语音信号的产生1 语音信号处理基础肺和气管 肺是胸腔内的一团有弹性的海绵状物质,它可以储存空气通过正常的呼吸系统空气可以进入肺部,说话时腹肌收缩使横膈膜向上,挤出肺部的空气,形成气流由肺部呼出的气流是语音产生的原动力气管将肺部呼出的气流送到咽喉,它是肺部气流的通道气管的上端是喉部语音信号的产生1 语音信号处理基础甲状软骨喉的生理结构声门声带环形软骨人的前方 喉位于气管的上端,实际上是气管末端一圈软骨构成的一个框架:前方稍高处的软骨称为甲状软骨,前前方环成一圈的称为喉部环形软骨,喉中两片肌肉称为声带,声带之间的空隙为声门。
当声带张开时,声门翻开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭声门和声带 语音信号的产生 当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝当气流通过气管经过咽喉时,收紧的声带由于气流的冲击而产生振动,不断地张开和闭合,使声门向上送出一连串喷流声带靠拢Tp基音周期 声带的开启和闭合称为振动这一振动过程周而复始,形成了一串周期性脉冲气流送入声道这个过程发出的音称为浊音如汉语发音的a、i、u和o等1 语音信号处理基础 语音信号的产生1 语音信号处理基础 F0=1/Tp,基音频率,由声带的质量来决定F0的大小决定了声音的上下,称为音高男性的F0大致分布在:60-200Hz 女性和儿童的F0大致分布在:200-450Hz基音频率Fundamental Frequency F0 声带的一个重要参数:语音信号的产生1 语音信号处理基础声道 人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开启和闭合,构成声带振动,然后通过声道喉腔、咽腔和口腔响应引起共振特性变成语音,气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。
讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音声道的不同的形状,对应不同的谐振频率声带振动频率输出气流的频率声道的谐振特性 语音信号的产生1 语音信号处理基础鼻端嘴唇17cm8.5cm13cm声道的无损模型谐振频率的计算谐振频率发生在:Fn=声道的横截面是均匀的,发元音e时,声道近似是均匀的L=17cm,声道的长度n=1,2,3 称为第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz,c=340m/s 声速2n-14Lcn表示谐振频率的序号 语音信号的产生1 语音信号处理基础一种声道形状对应一套共振峰不同人的声道大小不同,共振峰不同同一人,发不同音,共振峰也不同声道的作用相当于一个滤波器,它放大或增强某些频率而衰减其他频率分量前三个共振峰的大致范围Hz 共振峰共振峰 成年男子成年男子 成年女子成年女子 带宽带宽 f1 200800 2501000 4070 f2 6002800 7003300 5090 f3 13003400 15004000 60180 语音信号的产生1 语音信号处理基础鼻腔的作用 在软腭的帮助下,可使空气经过鼻腔排除人体外,由此产生的语音称为鼻音。
如n、ng为鼻音韵母,m、n、l为鼻音声母鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的口腔和鼻腔口腔的作用 使空气经过口腔排除人体外,由此产生的语音称为口音口腔的形状不固定,故其共振峰频率也是不确定的语音信号的产生1 语音信号处理基础等效为鼓励源声道喇叭口等效为鼓励源声道喇叭口鼓励源:声带声带振动频率基频(基音频率)清音 声带不振动浊音 声带振动声道:可变谐振腔不同形状、不同声音共振(谐振)频率 语音信号的产生1 语音信号处理基础n 发音的分类 浊音voiced sounds:声道翻开,声带在先翻开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流浊音的鼓励源被等效为准周期的脉冲信号清音unvoiced sounds:声带不振动,而在在声道某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道咽、口腔的调整最终形成清音清音的鼓励源被等效为一种白噪声信号爆破音plosive sounds:声道关闭之后产生压缩空气然后突然翻开声道所发出的声音语音信号的产生1 语音信号处理基础 语音信号的产生1 语音信号处理基础 语音是发声器官发出的一种声波,具有一定的音色、音调和音强和音长。
音色:又称为音质,是一种声音区别于另一种声音的根本特性与声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关音调:声音的上下,取决于声波的频率音强:声音的强弱,它由声波的振动幅度所决定 音长:声音的长短,取决于发音持续时间的长短,n语音的根本声学特性 语音信号的产生1 语音信号处理基础n 语音信号的时域和频域表示 语音信号的时域波形结论1:时间的连续函数、频率幅度随时间变化是随机的结论2:短时间内近似认为不变结论3:元音是准周期函数(基频)结论4:清音为随机起伏 语音信号的产生1 语音信号处理基础 语音信号的频域波形F1=500Hz,F2=1000Hz,F3=1500HzTp=250Hz 语音信号的产生1 语音信号处理基础基音周期 语音信号的产生1 语音信号处理基础 语音信号的语谱图女声:“他去无锡市,我去黑龙江的语谱图1语谱图:表示语音信号随时间而变化的频谱特性,在每个时刻用其附近的短时段语音信号分析得到的一种频谱2语谱图的纵轴对应于频率,横轴对应于时间,图像的灰度对应于信号的能量3声道的谐振频率表示为黑带,浊音局部那么以出现条纹图形为特征,这是因为此时的时域波形具有周期性,而在清音的时间间隔内比较致密4“声纹用于说话人识别 语音信号的产生1 语音信号处理基础load mtlbspecgram(mtlb,512,Fs,kaiser(500,5),475)title(Spectrogram)语音信号的产生1 语音信号处理基础wavplay(a,Fs)specgram(a,512,Fs,kaiser(500,5),475)语音信号的产生1 语音信号处理基础n 汉语中语音的分类音素:是发音的最小单位,分为元音和辅音。
元音是构成音节的主干,从长度和能量来看,在音节中占主要位置;辅音只是出现在音节的前端或后端或前后两端,它们的时长和能量较小音节:发音时,被明显感觉到的语音片段为音节一个音节由一个音素或几个音素构成单词的最小单位为音节,句子的最小单位为单词1音素与音节 语音信号的产生1 语音信号处理基础音系简单,在汉语中一个字就是一个音节,由一般为23个音素组成,而且具有音素少、音节少英语中一个单词由假设干个音节组成,一般为23个,一个音节由假设干个音素组成,一般为14个清辅音多,在听感上有清亮、高扬和舒服、柔和的感觉有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富2汉语语音的特点 语音信号的产生1 语音信号处理基础 在汉语中,由音素构成声母和韵母声母:一个音节开场的辅音,声母完全由辅音充当,但辅音不等于声母,因为辅音还可以作为韵尾放在音节的末尾21个)b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r3语音的拼音方法 语音信号的产生1 语音信号处理基础 韵母:在音节中占主要局部,音节中除了头上的声母以外的局部,由单、双元音、元音带上辅音等几种不同的形式组成。
所有元音都是浊音a、o、e、i、u、单韵母元音ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei、e 复韵母an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、an、n 鼻韵母 语音信号的产生1 语音信号处理基础 韵母是由单、双元音、元音带上辅音等几种不同的形式组成不同的元音有不同的基音频率和共振峰模式,它们是区别不同韵母的重要参数区别不同韵母的重要参数 语音信号的产生1 语音信号处理基础注意区别下述不同的概念浊音和清音:按声带振动的方式来划分元音和辅音:按音素的发音特征来划分,与声道中活动局部和固定局部的接触点的位置密切相关声母和韵母:按音节的构造进展划分元音一定是浊音辅音包括浊音和清音英语中:由元音和辅音这些都是音素构成音节,由几个音节构成一个词汉语中:汉语中由元音和辅音构成声母和韵母,结合声调构成一个音节,一个音节就是一个字语音信号的产生1 语音信号处理基础 声母、韵母和声调是汉语语音的三要素汉语语音的1个不同于其他语言的是它具有声调音调声调是1个音节在念法上的上下升降的变化,汉语中有4个声调,即阴平、阳平、上声 、和去声。
4汉语音节的一般构造 语音信号的产生1 语音信号处理基础 声调的变化就是浊音基音周期的变化,为了将调值描写地具体一些,一般采用“五度标记法,用一条竖线表示声音的上下,从下而上用1、2、3、4、5依次表示低、半低、中、半高、高5 高4 半高3 中2 半低1 低阴平阳平 上声去声调类阴平阳平上声去声调值555535352142145151 语音信号的产生1 语音信号处理基础单独发声的一个音节或是语音流中的任何一个音节都可能由7局部组成无声段音节声母鼻音段声母辅音段元音段送气段 前过渡段后过渡段韵母 语音信号的感知自学1 语音信号处理基础研究人对声音的感知,对语音编码识别很重要,如MP3听觉系统耳的构造听觉的形成耳蜗的作用 听觉特性人耳的听阈及响度音调 俺蔽效应同时掩蔽和异时掩蔽各种不同的掩蔽效果 语音信号的线性产生模型1 语音信号处理基础 鼓励模型肺部,气管,声带 声道模型咽腔,口腔,喉腔,鼻腔 辐射模型口唇,鼻孔 完整的语音信号的数学模型 语音信号的线性产生模型1 语音信号处理基础 数学模型的特点:是一个终端模拟的近似模型,其内部构造与语音产生的物理过程并不一致,只是在输出端等效)()()()(zRzVzGzH清/浊音开关Av冲激序列发生器声门波模型G(z)随机噪声发生器基音周期TPAN线性系统声道V(z)辐射模型R(z)鼓励模型 语音信号的线性产生模型1 语音信号处理基础 鼓励模型 用数学方法描述肺部的气流与声带共同作用产生的鼓励。
浊音激励清音激励冲激序列发生器声门脉冲模型G(z)随机噪声发生器基音周期TPAN清/浊音开关AV 语音信号的线性产生模型1 语音信号处理基础 发浊音时,声鼓励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的鼓励信号逼近声门振动气流的实际波形,需将冲激序列通过一个声门脉冲模型滤波器实际上是一个斜三角波形G(z)最后形成一个以基音周期为周期的斜三角型脉冲波1浊音鼓励Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲 语音信号的线性产生模型1 语音信号处理基础单位脉冲串单位脉冲串及幅值的Z变换形式11)(zAzEv将其表示为Z变换,有:冲激序列:E(z)浊音鼓励模型:U(z)=AVG(z)E(z)斜三角型脉冲波11121120.5*1 cos(/)0()cos()/20n NnNg nn NNNnNNothersN1为斜三角波上升局部的时间,N2为其下降局部的时间 语音信号的线性产生模型1 语音信号处理基础2清音鼓励 清音鼓励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声语音信号的线性产生模型1 语音信号处理基础 语音信号的线性产生模型1 语音信号处理基础声道模型(共振峰模型)uG(n)ul(n)用数学方法描述声道的调音特性。
包括声管模型和共振峰模型 语音信号的线性产生模型1 语音信号处理基础1声管模型“短时间声道是一个形状稳定的级联管道,声音在不同截面积间传输会有反射反射系数:km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性,确定Km,就确定了声道!A1 A2 A3.(a)立体图 (b)断面图 语音信号的线性产生模型1 语音信号处理基础2共振峰模型 声道近似为谐振腔,共振峰就是这个腔体的谐振频率,从共振峰的角度出发描述声道的模型称为共振峰模型一般共振峰的个数为3-5个p、ak 决定了声道地特性(人的特征),p越大越吻合一般p=812(1)级串联型(元音):声道是一组串连的二阶谐振器一个谐振腔对应1个共振峰频率V1V2V3V4V5传输函数p为极点个数,G是增益参数,ak为模型系数语音信号的线性产生模型1 语音信号处理基础传输函数是一个全极点的IIR滤波器,这些极点确定了声管的共振峰假设N取偶数,V(z)一般有N/2对共轭极点,rkexp(j2FkT),k=1N/2各个wk值分别与语音的共振峰相互对应N的取值一般为812211)(zczbazViiii利用Z变换的知识,把V(z)分解为多个二阶极点网络的级联:二阶谐振器的幅频特性 语音信号的线性产生模型1 语音信号处理基础2)并联型(大局部辅音)传输函数,零极点IIR滤波器011()()1RrrMripkikkb zVzVza z211)(zCzBAzViiiiV1V2V3V4V5用并联网络模拟声道。
对于非一般的元音和大局部辅音,必须采用零极点模型级联简单,可用于一般元音,一般35级并联复杂,可用于许多音,但ai难以求解 语音信号的线性产生模型1 语音信号处理基础3混合型根据需要进展模型的切换V1V2V3V4V5V1V2V3V4V5 将级联型和并联型结合起来的混合型也是比较完备的一种共振峰模型,该模型能够根据不同性质的语音进展切换语音信号的线性产生模型1 语音信号处理基础 辐射模型线性系统口唇辐射R(z)ul(n)pl(n)Pl(z)=R(z)Ul(z)R(z)=(1-rz-1)声道的终端为口和唇从声道输出的是速度波UL(n),而语音信号是声压波,二者之倒比称为辐射阻抗ZL它表征口和唇的辐射效应研究说明,口唇端辐射在高频端较为显著,在低频端时影响较小,所以辐射模型R(z)主要与嘴型有关,应是一阶类高通滤波器的形式用数学方法描述口唇和鼻孔的辐射特性语音信号的线性产生模型1 语音信号处理基础 完整的语音信号的数学模型Av冲激序列发生器声门脉冲模型G(z)随机噪声发生器基音周期TPAN线性系统声道V(z)辐射模型R(z)清/浊音开关)()()()(zRzVzGzH 语音信号的线性产生模型1 语音信号处理基础 在语音信号模型中,如果不考虑冲激脉冲串模型E(z),那么斜三角波模型是二阶低通,而辐射模型是一阶高通,所以实际信号分析中常采用“预加重技术。
即在对信号取样之后,插入一个一阶的高通滤波器,这样,只剩下声道局部,就便于对声道参数进展分析了在语音合成时再进展“去加重处理,就可以恢复原来的语音)()()()(zRzVzGzHR(z)=(1-rz-1)语音信号的线性产生模型1 语音信号处理基础 在这个模型中,TP、Av、AN、清/浊音开关的位置以及声道滤波器的参数都是随时间而变化,在10-30ms的时间间隔内是保持不变的这种特性称为短时性对于鼓励信号而言,大局部情况下,这一结论也是正确的,但有些音变化速度特别快,爆破音,取5ms比较更为恰当语音信号的线性产生模型1 语音信号处理基础语音特性分析实例 声门脉冲序列 声道对声门脉冲相应的输出 输出语音频谱 虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的恢复这个谱包络是许多语音处理应用中的主要问题,因为正是谱包络携带了主要的发音信息线性预测技术之所以非常重要,正是由于它所提供的谱包络分析方法是快速、准确,并且在理论上完全得到证明的方法声道频率响应,最大值与共振峰相对应 语音信号的线性产生模型1 语音信号处理基础理想的声门脉冲序列频谱 语音信号的非线性产生模型了解1 语音信号处理基础 调频-调幅模型的根本原理 Teager能量算子 能量别离法调频-调幅模型的应用短时能量和过零率短时能量和过零率l语音分帧每帧10-30ms,帧间隔10msl短时能量l对数l平方和l绝对值l过零率(ZCR)60NiixE12)(logNiixE12)(NiixE1)(11)1(sgn)(sgn21NnwwnsnsZ参数提取的预处理参数提取的预处理l预加重:l 减少锋利噪声影响,提升高频局部l加窗:Hamming l 减少Gibbs效应61 10.91.0y nx nx n 20.54 0.46cos01nw nn NN 各种参数的比较各种参数的比较lLinear Prediction Cepstrum Coefficients(LPCC)l假定所处理信号为自回归信号不适用辅音;l计算简单,但抗噪性差。
lMel-Frequency Cepstrum Coefficients(MFCC)l模拟人的听觉模型;l强调低频局部,屏蔽噪声影响;l识别率高,但计算量大l能量l辅助作用,需归一化l音调l对算法要求高,适于二次判别62Mel-频率频率l目的:模拟人耳对不同频率语音的感知l人类对不同频率语音有不同的感知能力l1kHz以下,与频率成线性关系l1kHz以上,与频率成对数关系lMel频率定义l1Mel1kHz音调感知程度的1/100063Mel-频率频率l公式:l频率Mel-频率:1125ln 1/700B fff-频率B-Mel-频率Mel-频率频率(Hz)64MFCCl计算流程:65DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC2 语音识别2 语音识别 1 1 语语言是人言是人类类特有的功能,声音是人特有的功能,声音是人类类常用的常用的工具,是相互工具,是相互传递传递信息的最主要的手段信息的最主要的手段2 2 语语音和音和语语言与人的智力活言与人的智力活动动密切相关,是人密切相关,是人们们构成思想疏通和感情交流的最主要的途径构成思想疏通和感情交流的最主要的途径。
通通过语过语音音传递传递信息信息是人是人类类最重要、最有效最重要、最有效、最常用和最方便、最常用和最方便的交的交换换信息形式信息形式参考资料参考资料2 语音识别1、赵力.语音信号处理.机械工业出版社,2003.教材2、韩纪庆、张磊、郑铁然.语音信号处理.清华大学出版社,2004.3、杨行峻、迟惠生.语音信号数字处理.电子工业出版社,2004.4、易克初、田斌.语音信号处理.国防工业出版社,2000.5、Huang X D,Acero A,Hon H,etal.Spoken Language Processing:A Guide to Theory,Algorithm and System Development.New Jersey:Prentice Hall PTR,2001 内容提示2 语音识别2.1 语音识别的重要性2.2 语音识别的定义、原理和分类2.3 语音识别的历史回忆2.4 语音信号处理简介2.5 语音技术概述l特定人和非特定人话者相关或话者无关l词汇量大,小l孤立词,连接词,关键词和连续语音l自然发音和朗读发音l口音方言l背景噪音环境噪音l信道差异固定 ,麦克,等l声学模型HMM,mono-phone,bi-phone,tri-phonel声学特征MFCCl解码Viterbi语音识别语音识别根本术语根本术语1l识别指标:lSERSentence Error Rate,句子错误率lWERWord Error Rate,词错误率lCERCharacter Error Rate,字错误率lPERPhone Error Rate,音节错误率l采样率,8kHz 或,16kHz麦克风l时域,频域l端点检测,静音检测或有效音检测VAD语音识别语音识别根本术语根本术语2l人类利用语言相互交流信息,包括语音和文字两种表达方式。
通过语音相互传递信息,这是人类最重要的根本功能之一随着信息社会的开展,人与人之间,人与机器之间也需要进展大量的信息交换l计算机语音识别是智能计算机系统的重要特征这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的开展以及推广应用产生深远的影响2.1 语音识别的重要性2 语音识别人与人之间、人与机器之间的语人与人之间、人与机器之间的语音信息处理过程音信息处理过程人与人之间的语音通信人与人之间的语音通信(人人)行行动动意意图图说话方说话方收听方收听方语言形成发音收听认识理解传输系统(编码、解码)空间传播文本解析语音合成语音识别文文章章输输入入(机器机器)语音理解计计算算机机处处理理应答文生成应答文生成:第一类人机 语音通信问题:第二类人机 语音通信问题计算机模拟人类交流信息的过程计算机模拟人类交流信息的过程(1)将大脑产生的思想转换成语言(2)将语言转换成相应的语音(3)识别表达语言的语音内容(4)理解语音所表达的语言意义自然语言生成自然语言理解语 音 合 成语 音 识 别基于 的语音识别技术,使计算机直接为客户提供金融证券和旅游等方面的信息查询及效劳成为可能,进而成为电子商务中的重要一环(Voice-Commerce)。
语音识别技术作为声控产业,对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响语音识别是一项具有巨大应用推语音识别是一项具有巨大应用推广前景的工程广前景的工程主要先进国家都将此工程列为国主要先进国家都将此工程列为国家级研究工程家级研究工程面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用微软:让计算机能说会听 IBM:ViaVoice仍居主流 Intel:做语音技术倡导者 Bill Gates 在97年世界计算机博览会(COMDEX)主题演讲会上描绘IT事业的开展宏图时指出:下一代操作系统和应用程序的用户界面将是语音识别工业界应对语音识别领域的重大突破做好充分准备,因为那将是一场席卷全球的另一次热潮1998年11月5日,微软中国研究院在北京成立该中心的任务是重点研究计算机在中文环境下的易用性微软:让计算机能说会听微软:让计算机能说会听IBM公司潜心研究语音识别技术迄今已达30年之久,投资超过2亿美元IBM公司于1995年在北京成立了中国研究中心,中文语音信息处理成了该中心三大研究领域之一,并于1997年9月4日,在北京推出了中文连续语音识别产品ViaVoice。
IBMIBM:ViaVoiceViaVoice仍居主流仍居主流1998年,英特尔公司也宣布致力于推广语音识别技术,除了在北京举办首届语音技术国际论坛之外,还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术的宣传活动联合了七家世界著名学术机构中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学成立了“国际语音技术研究组织,致力于计算机语音技术的根底研究,以加速中文语音识别技术的开展IntelIntel:做语音技术倡导者:做语音技术倡导者语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最根本、最有意义的信息的一门新兴的边缘学科它是语音信号处理学科的一个分支语音识别所涉及的学科领域:信号处理、物理学声学、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学研究软硬件算法以便更有效地实现用于识别系统中的各种方法、心理学等2.2 语音识别的定义、原理和分类2 语音识别l语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面语言通俗地说就是让机器能够听懂人说的话l所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。
2.2.1 2.2.1 语音识别的定义语音识别的定义有意义、有内容的信息是构成语音音韵特性、即语音的共性特征之根底,这类特征信息称为音韵信息语音信号中有关个人特征的信息、即语音的个性特征,如:音强、节奏、音高等,这类特征信息称为音律信息从广义上讲,语音识别也包括了对说话人的识别,其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征如:音律特性等,在这里专指有意义、有内容的识别音韵信息与音律信息音韵信息与音律信息训练(Training):预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中识别(Recognition):待识语音经过与训练时一样的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果失真测度(Distortion Measures):在进展比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度主 要 识 别 框 架:基 于 模 式 匹 配 的 动 态 时 间 规 整 法(DTW:Dynamic Time Warping)和基于统计模型的隐马尔柯夫模型法(HMM:Hidden Markov Model)。
2.2.2 2.2.2 语音识别的根本原理语音识别的根本原理l不同的语音识别系统,虽然具体实现细节有所不同,但所采用的根本技术相似,一个典型语音识别系统的实现过程如下图语音识别原理框图语音识别原理框图预处理预处理特征提取特征提取参考模式参考模式模式匹配模式匹配判决规则判决规则语音信号语音信号识别结果识别结果训练训练识别识别图图 语音识别的实现语音识别的实现预处理预处理语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测端点检测:从包含语音的一段信号中确定出语音的起点和终点有效的端点检测不仅能使处理的时间减到最小,而且能排除无声段的噪声干扰实验说明:端点检测的正确与否影响到识别率的上下语音端点检测的方法:短时能量和短时过零率l特征参数和识别方法有关系,是语音识别的关键之处,选择的好坏直接影响语音识别的精度l语音特征参数包括:短时平均能量、短时过零率、频谱、三个共振峰频率F1、F2、F3的频率值、带宽、幅值、线性预测系数、LPC倒谱和Mel倒谱等语音特征参数的提取语音特征参数的提取l将未知语音的特征参数与模板参数逐一进展比较与匹配,判决的依据是失真测度最小的准那么l语音识别的测度有很多,欧氏距离测度及其变形、线性预测失真测度等。
模式匹配模式匹配欧氏距离测度欧氏距离测度K维特征矢量:Xixi1,xi2,xiK Yjyj1,yj2,yjK KiiiyxKYXd122)(1),(均方误差欧氏距离l先对系统中的每个字,做一个码本作为该字的参考标准模板,共有M个字,故共有M个码本,组成一个模板库l识别时,对于任意输入的语音特征矢量序列XX1,X2,XN,计算该序列中每一个特征矢量对模板库中的每个码本的总平均失真量误差,找出最小的失真误差对应的码本代表一个字,将对应的字输出作为识别的结果模式匹配过程模式匹配过程模式匹配示意图模式匹配示意图特征矢量序列 XX1,X2,XN模板库 Y1,Y2,YM特征矢量特征矢量序列形成序列形成任意语音帧X码本码本Y Y1 1Y Y2 2Y YM M计算计算失真误差失真误差判决判决输出结果Yi 每一个字做一个码本,共M个字模板库模板库模板库XX1 1,X,X2 2,X,XN N 模板库模板库语语码本码本YY1 1,Y,Y2 2,Y,YN N 学学码本码本音音码本码本文文码本码本wenwen专家知识库专家知识库用来存储各种语言学知识,如汉语声调变调规那么、音长分布规那么、同音字判别规那么、构词规那么、语法规那么、语义规那么等。
对于不同的语言有不同的语言学专家知识库判决是语音识别的最后一步,也是系统识别效果的最终表现根据假设干准那么及专家知识,判决选出可能结果中最好的结果,由识别系统输出语音识别系统框架语音识别系统框架特征提取训练模式匹配拒识语法模型结果语音说话人自适应语音识别过程语音识别过程l相对于西方语言来说,中文有自己的独特之处中文是有调语言,发音的根本单元是声母和韵母并且以音节为自然单位,一个音节就是一个字甚至词,以至字词的时长很短,混淆度更大l另外,中文用415个根本的无调音节来构成7000多个根本汉字的发音,多音字很多l特别是,中文的发音和字是独立的,仅仅是中国大陆地区就有很多的方言,口音问题非常严重特别是在做中文孤立词和短语命令识别的时候,由于没有上下文的信息并且语音的长度很短,口音会严重地降低识别率中文语音识别的特点中文语音识别的特点 中文语音建模基元比较中文语音建模基元比较建模基元建模基元 模型数目模型数目 可训练性可训练性 稳定性稳定性应用情况应用情况音节约400个一般好较普遍声韵母约60个较好较好很普遍音素约40个好一般较少l按识别器的类型l按识别器对使用者的适应情况l按语音词汇表的大小2.2.3 2.2.3 语音识别的分类语音识别的分类按识别器的类型按识别器的类型 孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,语音拨号 连续语音识别识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,听写机,语音邮件 关键词识别识别单元是词,判断输入语音中是否含有词表中的词优点:能够处理连续语音,词表可定制缺点:速度较慢,词表越大,错误率越多应用案例:呼叫服务,安全监听特定人语音识别(Speaker-Dependent)语音识别的标准模板或模型只适应于某个人,实际上,该模板或模型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。
其他人使用时,需同样建立自己的标准模板或模型非特定人语音识别(Speaker-Independent)语音识别的标准模板或模型适应于指定的某一范畴的说话人如说标准普通话,标准模板或模型由该范畴的多个人通过训练而产生识别时可供参加训练的发音人圈内人使用,也可供未参加训练的同一范畴的发音人圈外人使用按识别器对使用者的适应情况按识别器对使用者的适应情况有限词汇识别按词汇表中字、词或短句个数的多少,大致分为:100以下为小词汇;100-1000为中词汇;1000以上为大词汇无限词汇识别全音节识别当识别基元为汉语普通话中对应所有汉字的可读音节时,那么称其为全音节语音识别音节字表:Lexicon全音节语音识别是实现无限词汇或中文文本输入的根底按语音词汇表的大小按语音词汇表的大小2.3 语音识别的历史回忆2 语音识别1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统1960年英国的Denes等人研究成功了第一个计算机语音识别系统大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展*80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。
在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开场转向基于统计模型(HMM)的技术思路此外,再次提出了将神经网络技术引入语音识别问题的技术思路90年代以后,语音识别的系统框架方面并没有什么重大突破但语音识别技术的应用及产品化方面出现了很大的进展2.3.1 2.3.1 国外语音识别研究的历史国外语音识别研究的历史1 1这一时期的语音识别方法根本上是采用传统的模式识别策略其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在美国的板仓等人的研究工作最具有代表性苏联的研究为模式识别应用于语音识别这一领域奠定了根底;-日本的研究那么展示了如何利用动态规划技术在待识语音模式与标准语音模式之间进展非线性时间匹配的方法;-板仓的研究提出了如何将线性预测分析技术(LPC)加以扩展,使之用于语音信号的特征抽取的方法目前在大词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开场了它的大词汇语音识别研究工作的AT&A的贝尔研究所也开场了一系列有关非特定人语音识别的实验这一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法国外国外7070年代所取得的实质性的进展年代所取得的实质性的进展这一时期所取得的重大进展有:1隐码尔柯夫模型(HMM)技术的成熟和不断完善成为语音识别的主流方法。
2以知识为根底的语音识别的研究日益受到重视在进展连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解同时在语音识别研究领域,还产生了基于统计概率的语言模型3人工神经网络在语音识别中的应用研究的兴起在这些研究中,大局部采用基于反向传播法BP算法的多层感知网络人工神经网络具有区分复杂的分类边界的能力,显然它十分有助于模式划分国外国外8080年代所取得的重大进展年代所取得的重大进展特别是在 语音识别方面,由于其有着广泛的应用前景,成了当前语音识别应用的一个热点另外,面向个人用途的连续语音听写机技术也日趋完善这方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统这些系统具有说话人自适应能力,新用户不需要对全部词汇进展训练,便可在使用中不断提高识别率国外国外9090年代所取得的实质性的进展年代所取得的实质性的进展DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究方案局资助的一项10年方案,其旨在支持语言理解系统的研究开发工作*。
到了80年代,美国国防部远景研究方案局又资助了一项为期10年的DARPA战略方案,其中包括噪声下的语音识别和会话口语识别系统,识别任务设定为“1000单词连续语音数据库管理到了90年代,这一DARPA方案仍在持续进展中其研究重点已转向识别装置中的自然语言处理局部,识别任务设定为“航空旅行信息检索日本也在1981年的第五代计算机方案中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展1987年起,日本又拟出新的国家工程-高级人机口语接口和自动 翻译系统2.3.1 2.3.1 国外语音识别研究的历史国外语音识别研究的历史2 2CMU卡内基梅龙大学、MIT麻省理工学院、IBM、AT&T等都参 与了这一方案的开发工作该方案执行的结果是1976年推出了HARPY(CMU)系统虽然,这是有限词汇和限定领域的识别系统,但改变了原来只利用声学信息的状况,开场应用高层次语言学知识如构词、句法、语义、对话背景等在这为期10年的阶段中尽管所有的研究方案均未能到达预期目标,但它对语音识别和理解研究的开展起了重要的推动作用通过这一阶段的研究使人们认识到语音识别任务的艰巨性,总结出许多有意义的经历教训,并且从此对语音识别提出了许多根底性的研究课题。
这些课题主要涉及到语音信号和自然语言的多变性和复杂性7070年代美国年代美国DARPADARPA(美国国防部高级方案局美国国防部高级方案局)方案方案(1)(1)连续语音词与词之间没有明显的停顿,词与词之间的连续语音词与词之间没有明显的停顿,词与词之间的 分割比较困难;分割比较困难;(2)(2)每一个根本的声学识别基元如音素受前后音素发每一个根本的声学识别基元如音素受前后音素发 音方式的影响协同发音使特征变得不稳定音方式的影响协同发音使特征变得不稳定 (3)(3)不同人、不同心理和生理以及在不同的说话环境下说不同人、不同心理和生理以及在不同的说话环境下说 同一词时,声学信号特征会发生变化;同一词时,声学信号特征会发生变化;(4)(4)一个词的读音不仅包含了词义特征,而且还包含了说一个词的读音不仅包含了词义特征,而且还包含了说 话人性别、年龄、情绪等大量与词义无关的信息,而话人性别、年龄、情绪等大量与词义无关的信息,而 这些信息的别离是不容易的这些信息的别离是不容易的5)(5)自然语言的多变性难以借助于一些根本语法规那么进展自然语言的多变性难以借助于一些根本语法规那么进展 描述,因而使计算机编程变得困难。
描述,因而使计算机编程变得困难语音信号和自然语言的多变性和复杂性语音信号和自然语言的多变性和复杂性我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音直至1973年才由中国科学院声学所开场计算机语音识别由于当时条件的限制,我国的语音识别研究工作一直处于缓慢开展的阶段进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步开展,国内许多单位具备了研究语音技术的根本条件与此同时,国际上语音识别技术在经过了多年的寂静之后重又成为研究的热点,开展迅速就在这种形式下,国内许多单位纷纷投入到这项研究工作中去*1986年3月我国高科技开展方案(863方案)启动,语音识别作为智能计算机系统研究的一个重要组成局部而被专门列为研究课题在863方案的支持下,我国开场了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议从此我国的语音识别技术进入了一个前所未有的开展阶段2.2.2.2 我国语音识别研究的历史我国语音识别研究的历史(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。
2)现在,国内有不少语音识别系统已研制成功这些系统的性能各具特色在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语-汉语语音翻译演示系统在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控 查号系统并投入实际使用我国的语音识别技术的开展我国的语音识别技术的开展l语音信号处理是研究用数字信号处理技术对语音信语音信号处理是研究用数字信号处理技术对语音信号进展处理的一门学科号进展处理的一门学科l语音信号处理的目的语音信号处理的目的:得到某些参数以便高效传得到某些参数以便高效传输或存储;输或存储;或者是用于某种应用,如人工合成或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进展语出语音、辨识出讲话者、识别出讲话内容、进展语音增强等音增强等 l语音信号处理的目标:保障现代通信领域中人与人语音信号处理的目标:保障现代通信领域中人与人之间、人与机器之间的信息交换的顺畅和自然之间、人与机器之间的信息交换的顺畅和自然。
2.4 语音信号处理简介2 语音识别语音信号处理语音信号处理 语语音信号音信号处处理涉及理涉及语语言学、声学、言学、声学、认认知科学、生理学知科学、生理学、心理学和数理、心理学和数理统计统计等多学科知等多学科知识识用数字化的方法用数字化的方法进进展展语语音的音的传传送、存送、存储储、合成、合成、识别识别和增和增强强等技等技术术是整个是整个数字化通信网中最重要最根本的数字化通信网中最重要最根本的组组成局部语语音技音技术应术应用广泛,包括工用广泛,包括工业业、军军事、交通和民用等事、交通和民用等各个各个领领域目前语语音信号音信号处处理理处处于蓬勃开展于蓬勃开展时时期,出期,出现现了了许许多新算法和高性能的系多新算法和高性能的系统统,不断有,不断有产产品开品开发发研制研制成功语音识别语音识别语音信号处理为多边学科的综合包括:语音信号处理为多边学科的综合包括:声学声学 (Acoustics)(Acoustics)语言学语言学(linguistics)(linguistics)语音学语音学(phonetics)(phonetics)生理学生理学(physiology)(physiology)心理学心理学(psychology)(psychology)人工智能人工智能(Artificial Intellections)(Artificial Intellections)。
语音技术的研究目标就是使信息时代的各种信息机器象人一样语音技术的研究目标就是使信息时代的各种信息机器象人一样“能听会说能听会说2.5 语音技术概述2 语音识别l语音识别ASR:把声音变成文字(耳朵的功能),相当于给机器装上了人工的耳朵包括:孤立词识别技术;连续语音识别;关键词识别技术;话者识别技术l语音合成TTS:把文字变成声音(嘴巴的功能);相当于给机器装上了人工的嘴巴;包括:语音应答系统;自动报站;信息查询;语言学习软件;TTSText to Speech技术(语音自动转换系统)l语音编码:在保持可以承受的失真的情况下,采用尽可能少的比特数表示语音包括:脉冲编码调制;自适应预测编码;自适应变换编码;线性预测编码;线性预测声码器;共振峰声码器;相位声码器l语音技术的内容语音技术的内容2 语音识别语音信号处理的进展语音信号处理的进展l6060年代前:年代前:l18761876年年BellBell创造创造 l19391939年研制成功第一个声码器年研制成功第一个声码器l19421942年年BellBell实验室创造了语谱仪实验室创造了语谱仪l19481948年美国年美国HaskinHaskin实验室研制成功实验室研制成功“语图回放语图回放机。
机l19521952年年BellBell实验室研制成能识别十个英语数字实验室研制成能识别十个英语数字的识别器的识别器2 语音识别l6060年代:年代:l19561956年声控打字机年声控打字机l6060年代开场,随着计算机技术的开展,语音信年代开场,随着计算机技术的开展,语音信号处理技术获得长足的进步,计算机模拟实验号处理技术获得长足的进步,计算机模拟实验取代了硬件研制的传统做法各种突破性的思取代了硬件研制的传统做法各种突破性的思想不断涌现想不断涌现l19601960年年DenesDenes等人用计算机实现自动语音识别等人用计算机实现自动语音识别,引入了时间归正算法改进匹配性能引入了时间归正算法改进匹配性能l 60 60年代中期,年代中期,MartinMartin等人为邮局研制了邮政等人为邮局研制了邮政编码阅读机编码阅读机语音信号处理的进展语音信号处理的进展2 语音识别l7070年代:年代:l7070年代开场,人工智能技术开场引入到语音识年代开场,人工智能技术开场引入到语音识别中美国国防部别中美国国防部ARPAARPA组织了有组织了有CMUCMU等五个单等五个单位参加的一项大规模语音识别和理解研究方案位参加的一项大规模语音识别和理解研究方案。
l7070年代中,日本学者提出的动态时间弯折算法年代中,日本学者提出的动态时间弯折算法对小词表的研究获得了成功,从而掀起了语音对小词表的研究获得了成功,从而掀起了语音识别的研究热潮识别的研究热潮l7070年代末,基于矢量量化码本生成的年代末,基于矢量量化码本生成的LBGLBG算法算法被提出,从而使矢量量化技术广泛地应用于语被提出,从而使矢量量化技术广泛地应用于语音识别、语音编码和说话人识别中音识别、语音编码和说话人识别中语音信号处理的进展语音信号处理的进展2 语音识别l7070年代以后:年代以后:l从从7070年代末年代末8080年代初开场,年代初开场,HMM HMM 技术被应用到语技术被应用到语音识别中音识别中l 1985 1985年年IBMIBM公司研制了公司研制了50005000词英语听写机词英语听写机TangoraTangoral9090年代初,年代初,CMUCMU的的Lee KaifuLee Kaifu完成的完成的SPHINX SPHINXl19971997年年IBMIBM推出的汉语听写机产品推出的汉语听写机产品ViavoiceViavoicel19991999年年IntelIntel推出语音识别软件开发包推出语音识别软件开发包lMicrosoft VoiceMicrosoft Voice及基于及基于的语音识别引擎的语音识别引擎语音信号处理的进展语音信号处理的进展2 语音识别语音信号处理的根底理论和算法语音信号处理的根底理论和算法(1)从语音的产生和语音的感知进展研究(2)将语音当作一种信号进展处理2 语音识别语音信号处理的硬件和实用系统语音信号处理的硬件和实用系统l计算机+数字信号处理板l通用或专用DSP芯片+辅助芯片2 语音识别声卡的功能声卡的功能l声卡,也叫音频卡,是MPC(多媒体个人计算机)的必要部件,它是计算机进展声音处理的适配器。
l它有三个根本功能:一是音乐合成发音功能;二是混音器Mixer功能和数字声音效果处理器DSP功能;三是模拟声音信号的输入和输出功能l声卡处理。