文档详情

第2章信源编码-(2)

沈***
实名认证
店铺
PPT
1.65MB
约87页
文档ID:158527048
第2章信源编码-(2)_第1页
1/87

教学目的与要求n 通信的数字化是它能与计算机技术和数字信号处理技术相结合的基础,而实现通信数字化的前提是信源所提供的各种用于传递的消息,例如语音、图像、数据、文字等都必须以数字化形式表示通过本章的学习,应掌握信源编码的基本知识,能熟悉掌握几种信源编码的方式教学内容及学时分配:n 模拟信号的数字化(0.5学时)n 语音编码技术(5.5学时)3 教学重点:参数编码、混合编码4 教学内容的深化和拓展:线性预测技术应用,语音识别技术本章主要内容本章主要内容n A/D变换n 信源编码的基本概念n 线性预测技术n ADPCM编码器(波形编码)n 参数编码(重点)一、A/D变换n抽样:将模拟信号从时间上离散例如,语音 信号的抽样频率为fs=8KHzn量化:将样值信号从幅度上离散标量量化:均匀和非均匀标量量化:多维n编码:用一组特定的代码来代表每个量化电平值在具体实现上,编码与量化通常是同时完成,换句话说,量化实际是在编码过程中实现的矢量量化(VQ)n记连续的矢量空间为X,离散的码本矢量空间为C,则矢量量化就是完成XC的映射过程设待量化的参数为X=x1 x2 xp,搜索码本确定的最佳匹配的矢量为Ci,则有:D(X,Ci)D(X,Cj)jIn矢量量化(VQ)的核心部件是码本(codebook)。

码本包含的矢量数称为码本尺寸,记作L;每个矢量包含的比特数称为码本的维数,记作k设每个矢量记录了P个参数的量化值,平均每个参数分配的比特数称之为量化比特,记作R,R=k/P被量化的参数可以是话音抽样值,线性预测系数,激励脉冲等1234码矢码矢No.VQ(Vector Quantization)tf1 4 2tn矢量量化过程如图n矢量量化的另一问题是如何建立码本,不同的发话者、不同的音素的发音数椐,通过模拟确定合适的码本矢量,建立一个数据库每个码本矢量描述一帧或一个子帧激励信号采用码本激励的线性预测合成分析编码器称为CELP编码器二、信源编码的基本概念n目的:提高通信的有效性主要指压缩编码)2.12.1 语音编码方法的分类语音编码方法的分类波形编码:从语音信号波形出发,对波形的采样值、预测值或预测误差值进行编码它以重建语音波形为目的,力图使重建波形接近原信号波形PCM、ADPCM、子带编码)参数编码(声码器):从语音信号的产生机理出发,构造语音信号模型,提取描述语音信号的特征参数,对模型参数或其预测值进行编码:它不以重建语音波形为目的,而是根据从语音段中提取的参数在接收端合成一个新的声音相似但波形不尽相同的语音信号,实现这一过程的系统叫做声码器。

混合编码:混合编码是介于波形编码和参数编码之间的一种编码,即在参数编码的基础上,引入了波形编码的一些特征,以达到改善声音自然度的目的最典型的算法都利用线性预测,采用分析合成的方法构成2.2 编码器的要求n速率 降低比特率往往是话音编码的主要目标,它直接关系到传输资源的有效利用和网络容量的提高根据比特率和输入话音的关系可将编码器分为两类:固定比特率编码器可变比特率编码器编码器的要求编码器的要求n时延算法时延编码器通常都是根据一定数量的采样值生成话音编码的,这些值的集合称之为一帧某些算法还需要知道下一帧的部分数据,称之为“前视”因此,算法时延就等于帧长和前视长度之和,其值完全取决于算法,和具体实现无关计算时延:即编码器分析时间和解码器重建时间,其值取决于硬件速度通常认为计算时延等于或略小于帧长,以确保下帧数据到齐后,当前帧已处理完毕复用时延:编码器发送之前和解码器解码之前,必得将整个数据块的所有比特都装配好传输时延:其值离散性很大,取决于是采用专用线还是共享信道对于共享信道而言,常假设传输时延和复用时延之和约为1个帧长上述4部分时延之和称为单向系统时延,粗略估计至少为3个帧长编码器的要求编码器的要求n 复杂度:以百万指令秒(MIPS)为计量单位。

低:15百万指令/s 中:15百万指令/s,且 30百万指令/s 高:30百万指令/sn 质量主观评价方法:诊断性音律测试(DRl)法诊断性可接受性测试(DAM)法“平均意见分(MOS)法 在具体实现中,这些属性往往是有矛盾的,因此必须根据实际应用进行取舍,对各个属性提出折衷的要求,从而确定合适的编码方法2.2.3 3 编码器其他主要技术编码器其他主要技术n 静音检测技术n 分组丢失补偿技术三、线性预测技术三、线性预测技术3.1 线性预测的基本概念 一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近通过使实际语音抽样和线性预测抽样之间差值的达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测系数n应用:语音合成n原理:将被分析的信号用一个模型来表示,即将信号看作是某一个模型(即系统)的输出这样就可以用模型参数来描述信号3 3.2 2线性预测技术原理线性预测技术原理模型的系统函数H(z):系数a、b及增益因子G模型的参数 p、q选定的模型的阶111()1qjjjpiiib zHzGa z模型输入与输出之间的时域关系:11()()()pqijijx na x niGb u nj线性预测技术原理线性预测技术原理 三种模型l零极点模型:同时含有极点和零点,称做自回归滑动平均模型,简称为ARMA模型,这是一般模型。

l全极点模型:当分子多项式为常数,即b=0时这时模型的输出只取决于过去的信号值,称为自回归模型(AR模型)111()1qjjjpiiib zHzGa z11()1piiiHzGa zl全零点模型:如果分母多项式为1,为全零点模型,称为滑动平均模型,简称MA模型1()1qjjjH zGb z闭环线性预测全极点模型n在话音编码中,利用重构信号进行预测 称为闭环极点预测E(Z)=A(Z)(z)S(i)e(i)误差最小 (i)(i)预测器 图2.6闭环线性预测全零点模型n利用预测差值的量化值进行预测称为闭环零点预测.(z)=e(z)p(z)S(i)(i)QP(Z)开环线性预测全极点模型n在话音编码中,常用极点预测,即利用重构信号进行预测E(Z)=A(Z)S(z)S(i)e(i)误差最小 (i)预测器开环线性预测全零点模型n利用预测差值进行预测称为开环零点预测z)=e(z)p(z)S(i)(i)QP(Z)3.3分帧/加窗 LPAS编码器是按时间块对输入信号进行处理的在编码器中最大的时间块称为“帧”合成滤波器系数每帧重新计算一次,计算用到的输入信号样值范围称为LP分析窗口激励信号更新周期小于合成滤波器的更新周期,称为子帧。

通常幀长1030ms,子幀长210ms三者关系如图:分析窗口 帧 子帧几种典型的窗函数n矩形窗:n汉明窗(Hamming):n哈宁窗(Hanning):WR=1=(0nN-1)0=(Other)WHM=0.5-0.46cos(2n/(N-1)(0nN-1)0=(Other)WHN=0.5-0.5cos(2n/(N-1)(0nN-1)0=(Other)3 3.4 4线性预测线性预测系数ai的计算线性预测系数ai的计算 设开环预测公式为1()()Niix na x ni式中,ai为线性预测系数则开环预测误差为1()()()()()Niie nx nx nx na x ni对应的Z变换为1()(1)()()()NniiE Za ZX ZA ZX ZA(Z)称为LP分析滤波器确定ai的基本准则是最小均方误差准则2212211()()()()2()()()NiiNNiiiiEenEx na x niExnx na x nia x ni若使 最小,则令2()E e n2()0iE e na,得到01(0)(1)(1)(1)(1)(0)(2)(2)(1)(2)(0)()naRRR nRaRRR nRaR nR nRR n其中()()()nR nx n x ni上式称为Yule-Walker方程。

n倒谱定义为信号短时振幅谱的对数傅里叶反变换各帧lpc、lpcc系数图 四、波形编码4.1 ADPCM4.1 ADPCM编码器编码器n自适应差分脉冲编码调制是语音压缩中复杂度较低的一种方法,它利用语音信号之间的相关特性降低速率,可以在32 kbit/s的速率上达到64 kbit/s PCM的语音质量G.721 ADPCM同时利用了差分量化、自适应量化和自适应预测的基本技术G.721ADPCM编码器(波形编码)ADPCM编码器ADPCM编码器(波形编码)ADPCM译码器4.2子带编码(波形编码)五、参数编码n参数编码器又称声码器(Vocoder)参数编码根据对声音形成机理的分析,着眼于构造话音生成模型,该模型以一定精度模拟发话者的发声道,接受端根据该模型还原生成发话者的音素,在频域该模型对应为具有一定零极点分布的数字滤波器编码器发送的主要信息就是该模型的参数,相当于话音的主要特征5.1语音的产生过程音源:声带音源、非声带音源 -声带振动周期:T(F0=1/T:基本频率)声道调音:对声道形状进行调整声道共振频率:F1、F2、F3 语音分类:-浊音:由声带振动并激励声道而得到的语音清音:由气流高速冲过某处收缩的声道所产生的语音。

音源产生音源产生声道调音声道调音向外辐射向外辐射肺活量肺活量 声带声带(声门)(声门)咽腔咽腔软腭软腭鼻腔鼻腔口腔口腔气管及支气管气管及支气管鼻音鼻音口音口音主声道:声门以上,经咽喉、口腔的管道鼻 道:经小舌和鼻的管道称为鼻道次声门系统:经肺、气管和支气管的管道5.2发音的生理机构5.3语音的物理属性n音色:指声音的音韵性共振频率n音调:指声音的高低基本频率n音强:指声音的强弱能量n音长:指声音的长短时间*音韵信息与音律信息n 有意义、有内容的信息构成语音音韵特性,即语音的共性特征之基础,这类特征信息称为音韵信息n 语音信号中有关个人特征的信息、即语音的个性特征,如:音强、节奏、音高等,这类特征信息称为音律信息汉语拼音七个韵母的共振峰频率(Hz)5.4语音信号的基本特征 非稳态过程(长时间而言),在一个很短的时间段内 (5-50 ms),可以认为具有相对稳定的特性,故称为准平稳信号人的发音是由激励源(清音、浊音)和声道形状决定的050100150200250300350400450-1-0.500.51x 104050100150200250300350400450-2-10123x 109050100150200250300350400450-1000-50005001000050100150200250300350400450-4-2024x 107语音信号的线性预测模型(LPC)5.5参数编码 线性预测编码器 若是清音,则直接进行量化编码;或是浊音,则进行基音提取(自相关法和短时平均幅度差函数法)。

LPC参数的量化编码n线性预测系数ai一般不直接编码传输,ai转换成线谱频率对(LSP):n线谱频率对的获取方法是,利用滤波器A(Z)和A(Z-1)构成一个和值滤波器P(Z)和一个差值滤波器Q(Z):)()()(1)1(ZAZZAZPN)()()(1)1(ZAZZAZQNLSF的性质P(Z)和Q(Z)的根称为LSF,它们有如下十分有用的性质:n P(Z)和Q(Z)的根均位于单位圆上,且相互交替间隔排列n 只要接收端的LSF仍然保持上述性质,则对应的A(Z)保持为最小相位滤波器这样就最大程度地减小了传输误码的影响,并确保LP合成滤波器的稳定性n LSF的频谱灵敏度具有很好的频率选择性,也就是说,单个LSF的误差只局限于该频率附近的频谱范围性质1和2表示只要LSF保持单调性,即间隔交替,就能确保滤波器的稳定性质3表示LSF的频谱灵敏度是局部的,因此各个 LSF可以独立进行量化5.6基音预测n基音是指发浊音时所引起的周期性声带振动,,基音周期值是声带振动频率的倒数,它是随着时间和发音高低而不断变化的因为汉语普通话是一种有调语音,它具有四种声调:阴平、阳平、上声、去声,声调是汉语普通话的主要属性之一,承担着重要的构字辨意的作用。

声调可以用基音的轮廓信息进行描述基音周期的变换模式称为声调,它携带着非常重要的具有辩意作用的信息声调识别是以提取基音为基础的基音提取n基音提取的方法大致可分为三类:a 波形估计法直接由语音波形来估计基音周期,分析出波形上的周期峰值b 相关处理法这种方法在语音信号处理中被广泛使用这是因为相关处理法抗波形的相位失真强,另外它在硬件处理上结构简单包括波形自相关法(MAVTO),平均幅度差函数法(AMDF),简化逆滤波法(SIFT)等c 变换法将语音信号变换到频域或倒谱来估计基音周期,比如倒谱法(CEP)语音信号基音周期的提取步骤1)对语音序列进行分帧处理,即进行短时处理2)对每一帧语音信号用900Hz的低通滤波器进行滤波3)对以上语音信号进行中心削波和三电平削波的非线性谱平整4)对预处理后的语音信号进行自相关运算5)判断是清音还是浊音,求出基音周期6)对基音周期进行中值平滑的后处理自相关法基音检测技术 检测流程图 取样分帧低通相关运算消波平滑求周期浊音判别发音“机”的时域图及基音周期检测结果 发音“长度”的时域图及基音周期检测结果 发音“我的电脑”的时域图及基音周期检测结果 5 5.7 7多带激励和混合激励线性预测编码器 多带激励编码:以基音谐波为中心,以基音频率为带宽,在每个子频带上根据频谱特征进行清浊音判决。

混合激励线性预测编码:采用了混合激励的形式代替基本LPC模型的二元激励形式,将周期脉冲激励源和白噪声源混合作为激励信号这种方式解决了二元激励模式不能准确描述过渡帧和弱浊音帧的问题六、混合编码六、混合编码n克服参数编码的缺点语音质量差基本思想是用合成来指导分析合成分析(Abs)-LPC编码器 Abs-LPC译码器混合编码混合编码n不同的激励方式对应着不同的Abs-LPC算法:多脉冲激励线性预测编码(MPLPC)规则脉冲激励线性预测编码(RPELPC)码本激励线性预测编码(CELP):例如G.728、G.729、10()()Kiiiu nann参数编码举例G.729声码器G.729声码器性能特点nG.729是8kbit/sL线性预测合成分析(LPAS或Abs-LPC)声码器.n采用前馈型前向自适应技术n帧长取为10ms,由2个子帧组成,予视5ms,设计的单向系统时延为35msn需编码传:送激励信号(包括波形和增益);预测器系数n为降低比特率,采用矢量量化,并利用了多级量化和分割量化技术n激励信号码本采用高效的共扼结构代数码本1、线性预测分析和量化n短时相关分析采用10阶线性预测(LP)滤波器。

nLP分析每帧(10ms)进行1次,采用不对称窗口(预测5ms),计算窗口内话音信号自相关系数然后用杜宾递推算法求得LP系数n该系数再变换为线谱对(LSP)参数,供量化和内插,内插求得的LSP参数再转换为LP滤波器系数,用以建立每个子帧的合成滤波器和误差加权滤波器n分析采用5ms予视,因此要用到当前帧80个抽样信号和下帧40个抽样信号1、线性预测分析和量化n分析求得LP系数后,转换成线谱对,如前述,P(z)和Q(z)的根都在单位圆上,让其实部和虚部分别为:qi=cos i i=1,2.10 Pisini i=1,2.10 n其中i就是线诺频率(LSF),其取值范围0-n为了提高量化精度,先用滑动平均(MA)预测法预测当前帧的i 然后对LSF的计算值和预测值之差进行量化算法采用2级矢量量化1、线性预测分析和量化第1级:10维矢量量化,码本C1,共含128个矢量其索引记为L1,为7bit第2级:10bit矢量量化,采用2段分割矢量量化实现分割为2个S维码本C2和C3,各含32个矢量其索引分别为L2和L3,各为5bitC2和C3分别量化前5个i和后5个in每个码本按照最小化MSE搜索,各个LSF量化系数由选定的2级码本矢量之和确定:1、线性预测分析和量化 Li=C1i(L1)+C2i(L2)i=1,2,3,4,5 Li=C1i(L1)+C3i(L3)i=6,7,8,9,10n为了防止由此构成的合成滤波器的共振峰太陡,确定的系数需重新安排,使相邻系数至少保持一个最小间距。

ni的量化值确定后,尚需按下列步骤校核滤波器的稳定性:1、线性预测分析和量化n按升序排序n如果 ,置n如果 ,置n如果 ,置i005.0i005.0i0391.01ii0391.01ii135.3103135.310LSP系数的内插方式 n对第1子帧:对第2子帧,就用本帧计算值:nLSP系数化,内插完成后,再转换成LP系数,供合成滤波器和误差加权滤波器使用10,15.05.0)()()1(iqcipii10,1)()2(icii2、开环基音分析 n 为了降低自适应码本搜索的计算量,先通过开环分析大致估算基音周期,记为Top,n自适应码本就限定在Top附近进行搜索开环分析每10 ms进行一次,分析方法:计算加权话音信息归一化自相关系数,其最大值对应的就是基音周期n周期范围设定为20143个抽样,即2.518ms,对应基音频率为55Hz400Hz2、开环基音分析n计算时分为三个时延段:i=1:80143抽样周期,最大值R(t1)i=2:4079抽样周期,最大值R(t2)i=3:2039抽样周期,最大值R(t3)取最大的R(ti)对应的时延为基音周期3、加权合成滤波器的特征量计算 n包括两个量值的计算。

一是滤波器的冲激脉冲响应h(n),二是目标信号X(n)n这两个量值按子帧计算,其结果供该帧自适应码本和固定码本搜索时计算误差方差使用n目标信号的计算方法是加权话音信号减去加权合成滤波器的零输入响应nG729采用计算残差信号经加权合成滤波器响应的等效算法4、自适应码本搜索 n自适应码本参数包括时延和增益,它是实现长时相关滤波的一种有效方法n码木搜索每子帧进行一次n搜索方法是在一定的码本范围内,按最小均方差准则确定最佳码本矢量,计算判据即 式中,390390)()()()(nnnynynynxR39,0)()()(0ninhivnyni第1子帧T1确定算法n搜索范围取为:第1子帧在开环基音分析确定的Top附近的小范围Tmin,Tmax内搜索,范围宽度为6个抽样周期由于基音周期范围为20143个抽样时长,因此Tmin,Tmax的确定算法为:6143143620203maxminmaxmaxminmaxminminmintttthentiftttthentifTtop输出参数P1的表达式 14385197)85)(int(32843119,1)19)(int(311111TTTfracTP 第2子帧T2确定算法 9143143920205)int(maxminmaxmaxminmaxminmin1mintttthentiftttthentifTtP2的表达式 nP2=3(int(T2)tmin)+frac+2nP2的取值范围为03l,因此P2编码需5bit 自适应码本的增益390390)()()()(nnPnynynynxg5.固定码本搜索 n固定码本搜索的目的是在自适应码本搜索确定的预测激励的基础上再附加增量激励,使残差进一步减小。

n固定码本基于代数码本结构,采用交织单脉冲排列设计n每个码本矢量包含4个非零单位脉冲,每个脉冲可有幅度+1或-1,允许的脉冲位置 脉冲位置表示方法)()()()()(33221100mnSmnSmnSmnSnC码本搜索结果表示方法n码本搜索结果可由2个码字表示 n一是符号码字S,指示4个脉冲的幅值(符号)n二是固定码本码字C,指示4个脉冲的位置 码本搜索结果表示方法 SS0十2Sl十4S2十8S3 (4bit)C=(m0/5)+8(m1/5)+64(m2/5)+512(2(m3/5)+jx)式中,mj/5为整除运算C共有13bit39,9,4138,8,30mmjx6码本增益量化 n自适应码本增益gp和固定码本增益gc组合起来采分组矢量量化方法进行量化n首先进行gc预测根据上一子帧的增益gc,采用4阶MA预测算法确定gc预测值为:n gcgc 称为校正因子6码本增益量化n然后进行码本搜索,确定gp和量化值n码本为2级共扼结构;n第1级码本GA共有8个矢量,每个码矢含2个元素,第1元素gp为自适应码本增益量化值,第2元素为固定码本增益校正因子量化值n第2级码本GB共有16个矢量,每个码矢亦含2个元素,和GA相同。

6码本增益量化n2级码本采用共扼结构n在GA码本中,每一矢量的第2元素值大于第1元素值,即gp;n在GB码本中,gpn搜索时采用予选方法缩小码本搜索范围6.码本增益量化n在GA中选择第2元素与预测最接近的4个矢量n在GB中选择第1元素与计算gp最接近的8个矢量n将每个码本的搜索范围缩减50nGA优先考虑量化nGB优先考虑gp量化n然后对选定的4个GA矢量和8个GB矢量进行穷尽联合搜索,总共有32种组合6码本增益量化最后选定的量化值为2个码本矢量之和:n式中,GA、GB表示选定的码本矢量,gAi、gBi表示是相应矢量的第i个元素)()(11GBgBGAgAgP)()(22GBBGAgAgggccr7.编码比特分配语音压缩编码n语音压缩编码是语音数字处理最重要的一种应用.语音压缩编码的的是用尽可能低的比特率来获得尽可能高的合成语语质量语音识别n语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话目前语音识别已经成为语音数字处理研究领域中的重点和难点技术语音识别可以有许多分类方法,例如,根据话音识别对象来划分,可以分为孤立词识别、连续语音识别等;根据词汇量来划分分为小词汇表(100个词以下)、中(100一500个)、大(500个词以上)语音识别等;根据对说话人的要求来划分分为特定说话人语音识别、多说话人语音识别和非特定说话人语音识别等。

说话人识别n说话人识别的作用是根据语音辨别说话人,广义的语音识别也包括说话人识别说话人识别并不注意语音信号中的语义内容仅希望从语音信号中提取出人的特征,即根据话音判别说话入是谁在分析语音信号时,可以提取说话人的个人特征,从而能识别说活入是谁.在语音识别时,要消除说话人的个人特征,以免影响识别的难确率;而在研究说话人识别时,专门研究人的特征,从语音信号中分析和提取个人持征,去除不含个人特征的语音信息语音理解n语音理解是利用知识表达和组织等人工智能技术进行语句自动识别和语意理解与话音识别的主要不同是对话法和语义知识的充分利用程度由于人们对话音具有广泛的知识、可以对要说的话具有一定的预见性,所以人对语音具有感知分析的能力依靠人对语言和谈论的内容具有的广泛知识以及利用知识提高计算机理解语言的能力,是语音理解研究的核心语音合成n语音合成的白的就是让汁算机说话,最简单的语音合成应当是语音响应系统,其实现技术非常简单在计算机内建立一个语音库,将可能用到的单字、词组或一些句子的声音信号编码后存人计算机,当键人所要的字、词组或句子代码时,就能调出对应的数码信号,并转换成语音n 语音合成系统是将文字转换成语言语音增强n在实际的应用环境中,语音都会不向程度地受到环境燥声的干扰,语音增强就是对带噪语音进行处理,降低噪声的影响,改善听觉的效果,有些语音编码和语音识别系统在小噪声或限声很小的环境中性能很好,但当环境噪声增大时、性能却急剧下降:因此,最大程度地去除噪声,改善听觉效果,也是语音编码和语音识别等系统必须解决的问题。

第二章补充作业1、矢量量化概念2、线性预测的基本概念3、描述语音信号的三种模型4、线性预测合成分析(LPAS或Abs-LPC)声码器的基本思想是什么?它的基本构成、激励信号的三种形式、编码过程。

下载提示
相关文档
正为您匹配相似的精品文档