文档详情

多媒体计算机技术_手打复习资料 背诵

沈***
实名认证
店铺
DOC
108.50KB
约33页
文档ID:168046868
多媒体计算机技术_手打复习资料 背诵_第1页
1/33

HTML多媒体实现语言示例自考会考到简单的HTML大题哦,自己还是细心看下吧xml语言简介和示例,没见考过javascript语言简介和示例没考过关于数据库部分.SOL数据库基本操作会考,建立视图什么的没考语言以上部分没有手打自考复习资料干什么用的你懂得没有考纲没有往年试题的痛苦..填空多选名词解释简答问答统统搞定唯独单选题…自己还是多练练把60分就够的话就不用怕了干什么用的你懂得耗时1个月感谢张亮同学的帮助此手打参照书为多媒体计算机技术(第三版)电子工业出版社TMD考试碰到赵敏她师傅了希望后来的同学过过过多媒体计算机技术第1章 多媒体技术概述多媒体的发展方向:从更深层次、从技术故障本身开始让技术在更基本的层面上解决普通人1.1 多媒体技术的基本概念1.1.1 媒体:一是指用以存储信息实体,如磁盘磁带半导体存储器等;二是指信息的载体如数字、文字、声音、图形图像视频等CCITT的媒体定义和分类:1.感觉媒体:直接作用与人的感官,使人产生直接的感觉的媒体;2.表示媒体:为了加工处理和传输感觉媒体而人为的研究构造的媒体(编码方式)可分三类,按时间划分为离散媒体和连续媒体,按空间属性划分为一维、二维、三维媒体,按生产属性划分为自然媒体和合成媒体;3.显示媒体:指感觉媒体用于通信的电信号之间转换的一类媒体(摄像机显示器)、4.存储媒体:用来存放媒体,以便计算机调用(存储器);5.传输媒体:将媒体从一个地方传到另一个地方的物理载体(网线)1.1.2 多媒体:是指信息表示媒体的多样化。

多媒体的重要特征:1.多维化,指多媒体的多样化:2.集成性,指多媒体设备、信息、表现的集成;3.交互性,是人们获取和使信息变被动为主动的最为重要的特征;4.实时性,也为动态性指多媒体就是中涉及的媒体1.2 多媒体计算机技术的发展历史Mac:1984 apple Mac Bitmap windows iconCD-I:1986 PHILIPS and SONY DV-I:1987 RCA AVC:1989 IBMMPC:1990 HHILIPS MPC1组成:PC、CD-ROM、声卡、Windows 3.1、音箱或耳机及性能参数 1.3 多媒体技术多媒体信息处理的最终目标:能跨越各种不同的网络和设备,透明的、强化的使用多样媒体资源多媒体系统关键技术分为:多媒体涉及的处理、存储、传输和多媒体输入输出技术 1.3.1 多媒体软件和硬件平台:实现多媒体系统的物质基础多媒体计算机软件和硬件系统组成:多媒体计算机硬件系统、多媒体核心系统软件、多媒体制作平台与工具、多媒体创作与编辑软件、多媒体应用系统1.3.2 专用芯片:一种是固定功能的芯片,一种是可编程的处理器处理音频和视频:先要把音频和视频喜欢数字化,以数字信息的形式载入计算机存储器中,再对其编辑处理。

1.3.3 数据压缩及编码技术PCM脉冲编码调制:1984 Oliver有效的压缩算法应考虑:媒体的种类、应用的对象、应用的要求以及采用的设备特性等因素1.3.4 多媒体同步多媒体数据进行处理时,不仅要考虑各种媒体相对的独立性,为了较好的信息显示效果,好药之一保持媒体之间在实践和空间上的关联为了定义不同媒体之间的相互关系,系统应准许用户规定不同媒体之间如何实现彼此之间的复合同步多媒体信息的三种相互集成模式:1.制约式,指一种媒体的状态转移或激活影响到另一种媒体2.协作式,指两种以上的媒体信息同时存在3.交互式,指媒体上含有的信息变换成另一种媒体信息1和2要求按事件发生的顺序同步,属基本同步1.3.5 多媒体网络与分布式处理技术:多媒体信息处理能力必须与网络技术结合才能充分发挥分布式处理技术的主要研究内容:如何在网络环境下将复杂任务分解,并借助于网络环境中的不停计算机完成任务1.3.6 信息组织与管理处理大批非规则数据的主要途径:一是扩展现有的关系数据,二是建立面向对象的数据库系统,以存储和检索特定信息超媒体:一种新型(天然)的信息管理方法,一般采用面向对象的信息组织和管理信息的组织将不再是线性的,二是按某种方式以非线性的形式进行存储、管理和浏览,这样,用户对信息的使用更加方便,更加灵活的信息检索形式。

超文本和超媒体适合于表达多媒体信息1.3.7 多媒体的数据存储:SAN存域网、服务器存储技术:直接连接存储技术DAS和存储网络技术(很高的安全性且动态扩展能力极强)1.3.8 虚拟现实(VR)技术:就是采用计算机就是生成一个逼真的视觉、听觉、触觉及嗅觉的感觉世界,用户可以用人的自然技能对这个生成的虚拟实体进行交互参考VOXEL MAN虚拟人体:德国汉堡Eppendorf大学1.3.9 人机界面设计:其计算机系统必须能够采用自然语言或者足以表达信息的图像方式来回答用户的问题其目的在于通过对用户需求的解释达到一种人机之间较好的通信能力, 其研究方向为:1.文件的语言处理模式,包括语音识别和自然语言理解2.手势分析和理解模式设计3.上述两点的通信融合,是对用户需求的互补4.多模式环境中的对话管理,保证连续的对话过程5.任务的优化图形表达,易于对象理解的方式1.3.10 高速多媒体通信技术:是指为满足新一代信息系统中实时多媒体信息传输的需求,网络带快1000Gbps以上,且服务质量控制(QoS),以适应不同媒体传输质量要求骨干路由器的要求:至少1Gbps以上交换能力,单个端口速率甚至达到622Mbps1.4 多媒体技术的应用只要应用包括:1.音频视频流点播、2.电子出版物、3.医疗卫生、4.游戏与娱乐、5.计算机会议视频、6.多媒体展示盒信息查询系统、7.MIS管理信息系统与OA办公自动化系统、8.传媒和广告、9教学管理系统.、10.移动卫星。

1.5 多媒体技术的发展趋势:1.智能化,其目的在于实现人机的自然交互2.三维化,重点在于将计算机视觉技术和图形技术的内容结合起来,实现增强实现技术第2章 多媒体计算机的组成2.1 概述多媒体计算机的组成:1.主机,2.多媒体转接卡,3.多媒体外部设备,按功能分:音频视频输入设备、视频视频输出设备、人机交互设备、存储设备2.2 常用的I/O设备:输入设备、输出设备、以及用于网络通信的通信设备2.2.1 输入设备:1.手写板,分电阻压力板、电磁感应板、电容触控板2.图像扫描仪,其性能参数为分辨率、灰度、色彩度、速度、幅度3.触摸屏,按介质工作原理分电阻式、电容式、红外线、声表面波2.2.2 输出设备:1.CRT显示器,大致分两类,一是用于图像处理领域的图像显示器,二是用于图像处理领域的矢量方式图形显示器按使用种类分存储型、随机扫描型、光栅扫描型2.液晶显示器LCD,低电压、低功耗,MOS-IS可直接驱动,与系统驱动切合度好液晶,指分子具有方向性的液体侧称为液态晶体按技术性质分单纯矩阵驱动(TN、STN、FLCD、)和主动矩阵驱动(MIM、TFT、PD)3.等离子显示器PDP, 又称电浆显示器。

4.背投电视,按投影种类分CRT、 LCD、 DLP L、COS5.显卡,主要用于对图形函数进行加速 其性能决定于显存的容量、显存的数据位与带宽、显存的速度6.打印机,最传统的标准计算机输出设备分点阵式打印机、激光打印机、喷墨打印机2.2.3 通信设备:1.调制调解器,作用是利用模拟信号传输线路传输数字信号ADSL调制调解器的三种线路编码:抑制载波幅度和相位 CAP、离散多音复用 DMT、离散小波多音复用 DWMT2.网卡,局域网中最基本的部件之一,主要作用是整理计算机上发往网线上的数据,并将数据分解为适当大小的数据包后在网络上发送出去2.3 存储设备及存储技术2.3.1 存储设备2.3.2 存储技术:1.NAS网络附加存储;2.SAN存储局域网;3.DAS直接附加存储;4.IP存储;5.光存储器;6.虚拟存储,其好处是提高存储利用率,降低成本,简化管理并且具有开放性、扩展性、管理性方面的优势2.4 USB设备:USB为通用串行总线,其优点在于:使用方便,可以热插拔、速度快、独立供电、支持多媒体、低成本2.4.1 USB的硬件结构:采用四线电缆,信号定义由2条电源线和2条信号线组成USB工作方式是基于令牌的总线,其主控制器广播令牌,总线上的设备检测令牌中的地址是否与自身相符,通过接收或发送数据给主机来响应。

其通过支持悬挂与恢复操作来管理其总线电源USB采用主机、集线器、功能设备来组成级联星形拓扑结构2.4.2 USB的软件结构;1.总线接口;2.USB系统,由主控制驱动程序、USB驱动 程序、USB客户软件组成USB主机的功能:检测链接和移除的USB设备;管理主机和USB设备;链接USB状态和活动统计;控制主控制器和USB设备间的电气接口2.4.3 USB的数据流传输方式:其分同步传输方式、中断传输方式、控制传输方式、批传输方式2.4.4 US B的应用2.4.5 USB产品2.5 数字摄像设备2.5.1 CCD:CCD技术和结构主要考虑最佳的光学属性和图片质量,CCD传感器原理是以横竖线短阵形式排列,各像素点包含一个光电二极管和控制相邻电荷单元,光电二极管将光子转化为电子,聚焦的电子数量相应于光强度,并转换成各自独立的电荷包单元CMOS:采用标准硅处理方法加工2.5.2 数字摄像头:主要参数是为最大分辨率、传感器像素、接口类型、色彩位数、感光元件、最大帧数2.5.3 数码相机:其特征为像素、镜头、快门2.5.4 数字摄像机:性能决定于摄像机的镜头、光学变焦和数码变焦、静态图像存储和视频输出。

第3章 数字图像处理1.采样,时间上的离散化;2.量化,幅度上的离散化3.1 信号处理基本术语3.1.1 采样:时间上的离散化,按照一定时间间隔Δt在模拟信息x(t)上逐点采取其瞬时值量化:幅度上的离散化,振动幅值用二进制量化电平来表示3.1.2 采样长度的选择与频率分辨率:采样长度为采样时间的长短采样时,要保证能反映信号的全貌,瞬态信号包括整个瞬态过程3.1.3 DFT和IDFT的定义3.1.4 小波变换3.2 图像数据压缩基础3.2.1 色彩基本概念:色彩由色调、饱和度、亮度描述色调是指某种颜色的性质和特点也就是颜色饱和度指颜色色调的表现程度亮度是指作用与物体表面的管线反射系数真彩色:是指图像中的每个像素值都分成R、G、B三基色表示2八次方的三次方为16兆种颜色伪真色:每个像素是一个索引值或代码,查表后获取颜色调配色:优于伪真色显示深度与图像深度的关系:显示大于图像屏幕色彩能较为真实的反映图像文件的色彩效果;显示等于图像,调色板一致时较真实,不一致时失真;显示小于图像色彩失真3.2.2 色彩空间及其变换1.RGB颜色模式,红绿蓝2.Lab颜色模式3.HSB颜色模式,基于人心里感受4.YUV颜色模式。

3.2.3 图像数据压缩的可能性:压缩的目的在于尽可能的消除数据冗余冗余分类:1.统计冗余;2.信息熵冗余;3.结构冗余;4.知识冗余;5.视觉冗余3.3 图像压缩算法:其指标包括压缩比、算法的复杂性和运算速度、失真度、无损编码、有损编码3.3.1 信息熵编码:1.行程长度编码,也是游程编码,最简单之一;2.哈夫曼编码,常用方法之一;3.算术编码,其特点为信源符号的出现概率比较接近时,比哈夫曼编码高且实现比之复杂3.3.2 字典编码:1.字典编码的思想,一是查找正在输入的字符序列是否在以前输入出现过,有则用指针指向早期序列代替,二是创建短语字典,而后以索引号编码;2.LZW压缩算法,主要处理输入流、输出流、和一张字符表;3.LZW解压算法,3.3.3 预测编码:利用先前像素灰度信息,来预测当前像素灰度,把没有预测对的预测值与实际像素之间的差经过熵编码后发送接收端,接收端通过预测值和差值还原图像其可分为线性和非线性预测编码3.3.4 变换编码:是指将时域信号变换到频域信号进行处理的方法波形编码:预测编码、变换编码、矢量量化编码、都属于波形编码3.3.5 模型编码:3.3.6 混合编码:两种或以上的编码方法对图像进行编码。

如JPEG、MPEG3.4 常用图形、图像文件:计算机中的两种类型的图矢量图和位映图像矢量图:用数学方法描述的一系列点、线、弧和几何形状,存放为矢量图格式位映图像:也叫光栅图,由像素组成,存放为位图格式矢量图与位映图像区别:矢量图是图形指令,大小与复杂度有关,越复杂执行的指令也多显示越慢,但易于编辑便于传播,表现力受限位映图像是图像点阵数据,大小与色彩深度、 图的尺寸有关,越大显示越慢,但表现丰富,编辑复杂文件大不利于传播矢量图格式:.ps、.eps、.dpf、.ai、.swf、.svg、.wfm、.emf位映图像格式:BMP基本位图和GIF、PNG当中的部分编码3.4.1 BMP 文件格式:windows中采用的位映图像格式,尾名.BMP或.bmp其由位图文件头数据结构、位图信息数据结构、位图阵列组成3.4.2 GIF文件格式:以数据块为单位来存储图像,由表示图像图像的数据块、数据子块、显示图形图像的控制信息块组成,也就是GIF数据流其采用LZW算法来压缩图像3.4.3 PNG文件格式:为替代GIF、TIFF的位图格式采用LZ77派生的无损算法其定义了关键数据块即标准数据块和可选辅助数据块,其中关键数据块包括文件头数据块IHDR、调色板数据块PLTE、图像数据块IDAT、图像结束数据块IEND。

PNG优缺点:其优点在于兼有GIF和JPEG的色彩模式,既能把图片压缩到极限便于网络传播又能保留所有与图像品质有关的信息的解决方案,更优化的传输显示(交错模式,先显轮廓再显全图),其透明特性有利于减小文件便于传播,在所有系统中显示一样的图像不像GIF会变化缺点在于PNG不能多张存储一个文件中形成GIF的动画效果,无损格式不便于有损压缩式文件减小,不支持CMYK模式即出版印刷模式3.5 静态图形压缩标准3.5.1 JPEG:是国际标准化组织ISO和国际电报咨询委员会CCITT关于静止图像编码的联合专家组的缩写该标准可用于自然景象或任意连续色调图像的数字数据的压缩编码和解码JPEG标准的工作方式:1.顺序方式,图像被分成行列的小块,从左到右从上到下的压缩与还原一次完成2.渐进方式,先低于质量要求进行编码,然后再提高一次编码等级进行编码,只传输需要改善质量部分的信息,重复若干次知道得到质量要解码时先解出低质量全图而后附加改善质量信息二次解码解码随意终止适合网络环境JPEG的基本系统算法过程:1.二维DCT变换;2.系数量化;3.编码模型与事件统一;4.熵编码;5.数据结构JPEG渐进方式的实现:通过普选择法、逐次选择法、阶梯选择法组合来实现。

JPEG的压缩效果:与被压缩图像特性有关3.5.2 JPEG2000:同JPEG相比的优势在于压缩率高、无损压缩、渐进传输、感兴趣区域压缩文件格式为LWF3.6 动态图形压缩标准3.6.1 MPEG标准概述:标准化的意义,只有实现标准化,才能带动集成电路的大量生产,大幅度降低视频压缩成本,解决不同厂商设备的通用性3.6.2 MPEG-1标准:由MPEG-1的 systems、video、audio、conformance testing、software simulation五部分组成MPEG数据流分层结构:运动图像序列、图片组、图片、块、宏块、图片切块MPEG算法矛盾:满足随机访问最好算法是帧内编码,但此编码无法达到无损画质下高压缩比所以采用预测和插值两种帧间编码技术MPEG视屏算法的基础:基于16*16块的运动补偿缩减时间冗余,基于变换域DCT的缩减空间冗余技术1.缩减时间冗余:MPEG考虑内帧I、预测帧P、内插帧三种画面因为一是考虑随机访问的重要性,二是运动补偿插值可以显著降低位速率,是应用最广泛的减少时间冗余的方法2.缩减空间冗余:类似JPEG编码,采用混合编码、基于视觉加权的标量量化和行程编码等技术。

其分三个阶段:一是基于DCT的正交阶段,二是对变换系数进行量化后把数据按Z形扫描顺序重组合,三十对变换系数按行程编码进行熵编码已达到进一步压缩目的MPEG量化器设计主要考虑:视觉加权量化、帧内块和非帧内块的量化、可调整的量化器3.6.3 MPEG-2标准:其制定出发点是保持通用性,使用广泛的应用良玉、比特率、 分辨率质量和服务MPEG-2同MPEG1的区别在于:一是能够有效的支持电视的隔行扫描格式,二是支持可分级的可调视频编码MPEG-2的9个组成部分:由MPEG-2的 systems、video、audio、conformance testing、software simulation、数字存储命令和控制扩展协议、先进声音编码ACC、系统解码器实时接口扩展标准、一致性控制测试3.6.4 MPEG-4标准:是为了满足交互式多媒体应用的标准,跟高的灵活和可靠性 其主要用于可视、视频邮件、电子新闻等其优点在于对传输速率要求较低,利用 很窄的带快,可以通过帧内重建,压缩和传输数据以求最小的数据获得最佳的图像MPEG-4的三个最重要特征:基于内容的压缩、更高的压缩比和时空可伸缩性MPEG-4同MPEG-1和MPEG-2的不同:MPEG-1、MPEG-2基于帧的规范,而MPEG-4基于媒体对象的规范,它管道了媒体对象的描述、表达、组织等问题3.6.5 MPEG-7标准:即多媒体内容描述接口,其主要提供图像信息检索解决方案,将对现有内容识别专用解决方案的有限的能力进行扩展,特别是包含更多的数据类型。

MPEG-7的组成:MPEG-7的系统、描述定义语言、音频、视频、属性、参考软件、一致性3.6.6 MPEG-21标准:其目的是希望定义一个包含各种多媒体的框架,从而使各种多媒体有机结合,提供安全统一、跨平台、用于信息制作、发布、处理等功能的框架平台MPEG-21的实质:就是关键技术的集成,通过集成环境对全球数字多媒体资源进行透明和管理3.7 H.26X标准3.7.1 H.261标准:CCITT的第一个国际视频压缩标准,主要满足电视电视会议3.7.2 H.263标准:其目的在于在现有的网上传输活动图像其基于块的预测标差分编码系统H.263标准的两种编码模式:1.帧内编码,仅包含帧本身的信息,从而每帧可以独立编码;2.帧间编码,只对帧间预测误差进行编码,从而极大消除时间冗余H.263标准的可协商选择编码:1.无限制范围的运动矢量,、基于语法的算术编码方法、高级预测和PB帧H.263+中新增项:1.图像种类,有分级图像、增强的PB帧、用户定义的图像格式2.编码模式,有先进的帧内码AIC、块效应消除滤波器DF、片结构SS、参考帧选择RPS、参考帧重采样RPR3.7.3 H.264标准:其主要目标和特点在于,提高压缩编码效率、增强网络适应能力。

H.264标准关键技术:1.分层设计VCL:分为视频编码层负责高效视频内容表示;网络提取层NAL:负责以网络所要求的恰当的方式对数据进行打包传送2.高精度、多模式运动估计:H.264支持1/4、1/8像素精度的运动矢量3.4*4块的整数变换:对残差采用基于块的变换编码,但变换时整数操作不是实数运算4.统一的VLC:H.264中熵编码分两种,一种是对所有的待编码符号采用统一VLC(UVLC),一种是采用内容自适应的二进制算术编码CABAC5.帧内预测:不是在时间上,而是在空间域上进行的预测编码算法,可以消除相邻块之间的空间冗余,取得更有效的压缩6.面向IP和无线环境:第4章 音频信号和声卡4.1 音频编码基础声音,根据其内容可以分为波形声波、语音和音乐波形声音,是数字化了的声音,包含所有的声音形式音频信号,是指经过计算机处理过的离散化了的省略信号4.1.1 声音信号的特点:1.声波是一种连续的波,连续性表现在,一是时间上的连续,二是幅度上的连续声波具有普通波的特性,反射、折射、衍射2.声音的分类,按不同声音特性可分为不规则声音和规则声音 前者不包含任何信息的噪音,后者常分为语音、音乐、和音效。

语音:是指具有语言内涵和人类约定俗成的特殊媒体音乐:是规范的、符号化的声音音效:是指人类熟悉的其他声音3.声音的三要素,音调、音强、音色4.1.2 音频信号处理的方法声音是连续模拟的信号,计算机要对声音时间轴和幅度两个方面进行离散化采样:是指计算机对声音在时间轴上的离散化处理量化:是指计算机对声音在幅度上的离散化处理 4.1.3 音频文件的存储格式目前流行的种类:主要在计算机上的WAV格式,主要在UNIX工作站上的AU格式,主要在苹果机和SGI工作站上的AIFF和SND格式,和目前PC机上流行的mr和mp3格式WAV文件格式:称为波形文件格式波形文件格式,支持存储各种采样频率和采样精度的声音数据支持声音数据压缩RIFF文件格式:一种为交换多媒体资源而开发的资源交换文件格式,前面两个字段表示文件类型,其中最主要的两个块是,文件结构块(包含波形重要参数)和声音数据块(包含实际波形数据)WAV外的常见音频格式:1.MP3,文件即采用MP3文件格式压缩的文件2.AVI,一种符合RIFF文件规范的数以音频和视频文件格式2.RM,由RealNetworks开发主要用于低速广域网上实时传输活动视频影像。

4.1.4 声音质量的度量1.可以用声音信号的带宽来衡量,一次为DAT > CD > FM > AM > 数字2.另外两种基本方法:一是客观质量,主要使用信噪比来度量,建立在度量均方差基础上,特点是计算简单,但不能完全反映人对语言质量的感觉;二是主观质量,常用的方法有平均意见得分MOS法,其5个等级有若干参与测试者平分得出3.数字语音通信语音质量分4类,广播质量、网络质量、通信质量、合成质量4.2 音频信号压缩技术数字化的音频信号必须经过编码处理,以适应存储和传输的要求,并且在音频信号再生时得到做好的音质的声音一般压缩技术分为,有损压缩和无损压缩,而按照压缩方案不同,又可分为时间域压缩、变换压缩、子带压缩以及多技术混合压缩4.2.1 脉冲编码调制脉冲编码调制,是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最广泛的编码系统,但一时数据量最大的编码系统声音数字化的两个步骤:一是采样,每隔一段时间间隔读一次声音的幅度;二是量化,把采样得到的声音信号幅度转化成数字值,可分为均匀量化和非均匀量化4.2.2 增量调制DM增量调制DM是一种预测编码技术,是PCM编码的变形,PCM具有对任意变形进行编码的能力。

DM对实际的采样信号与预测的采样信号之差的极性极性编码,将极性变成"0"和"1"这两种可能增量调制孙然简单单有两个缺点:一是会出现斜率过载,二是会产生粒状噪声4.2.3 自适应脉冲编码调制APCM其是一种根据输入信号幅度的均方根值的变化来改变量化的一种编码技术改变量化阶大小的方法:一是前向自适应,二是后向自适应4.2.4 差分脉冲编码调制DPCM是利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术其思想是根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与与预测值之差进行量化编码从而减少了表示每个样本信号的位数4.2.5 自适应差分脉冲编码调制ADPCM其综合APCM的自适应和DPCM的差分特性,是一种比较好的波形编码ADPCM的思想是:1.利用自适应的思想改变量化的大小,即使用小的量化增量去编码小的差值,使用大的量化增量去编码打的差值;2.使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小4.2.6 子带编码SBC其思想是使用一组带通滤波器把输入音频信号的频带分成若干个连续的频段,每个频段称为子带采用对子带分别编码的好处:一是对每个子带信号分别进行自适应控制,量化阶的大小可以按照每个子带的能量电平进行调节;二是可以根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。

4.3 音频编码标准4.3.1 CCITT G系列声音压缩标准1.G711:为质量和语音压缩用于,使用μ律或A律的非线性量化技术2.G.722:为调幅广播质量的音频信号压缩制定,用于视听多媒体和会议电视3.G.723.1:采用多脉冲激励最大似然量化算法,用于可视及IP系统4.G.728:使用基于低时延码本激励线性预测编码,用于公共网5.G.729:使用8kbps的共轭结构代数码激励线性预测算法,多用于无线移动网、数字多路复用系统和计算机通信系统中CCITT G系列声音压缩标准比较标准 比特率 编码技术 应用 制定日G711 64kbps PCM 公共网 1972G.722 64kbps SBC+ADPCM视听多媒体和会议 1988.11G.723.1 5.3/6.3kbps MP-MLQ 视频及IP 1996.3G.728 16kbps LD-CELP 公共网 1992.9G.729 8kbps CS-ACELP 无线移动网、计算机通信系统 1996.34.3.2 MP3压缩技术MP3是MPEG audio layer3的缩写,是一种超级声音文件的压缩方法,具有文件小、音质佳的特点。

MPEG分视频和音频压缩,音频上分MPEG layer1、MPEG layer2、MPEG layer3三种,压缩比一次升高MPEG 音频编码模式中,MP3功能强大,同样条件下,MP3需要的数据量小且音质要好MP3采用有损压缩,为降低失真度,其采用“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪声电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果虽然有损压缩,但以极小的声音损失换来较高的压缩比4.3.3 MP3产品:4.3.4 MP4简介MP4最初是音频格式,采用先进的音频压缩技术ACC,并且实现了版权保护4.3.5 乐器数字接口MIDIMIDI是数字音乐电子合成音乐的统一国际标准,其目的是解决各种电子乐器间存在的兼容性问题MIDI定义的内容:定义了计算机音乐程序、音乐合成器及其他电子音乐设备交换音乐信号的方式,而其还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间的数据传输协议,可用于为不同乐器创建数字声音,能很容易的模拟钢琴、小提琴等传统乐器的声音计算机播放MIDI的两种合成声音:FM合成和波表合成。

FM合成石通过多个频率的声音混合来模拟乐器的声音;波表面合成是将乐器的声音样本存储在声卡波形表中播放时从波形表中取出声音,所以更为逼真MIDI文件格式:CMF随声卡一起的音乐文件,与MIDI文件仅头文件不同;MIDI是windows使用的RIFF文件格式,称为RMID扩展名为.rmi4.4 音频编码标准4.4.1 声卡的发展历史1.PC喇叭到ADLIB音乐声卡;2.Sound Blaster声卡;3.PCI声卡;4.USB声卡4.4.2 声卡的声道1.单声道:比较原始的声音复制形式;2.立体声:声音在录制时被分配到两个独立的声道;3.四声道环绕声:其四个发音点位前左前、右后、左后、右及附加低音单元4.5.1声道:广泛用于传统电影院和数家庭影院4.4.3 声卡的功能:1.录制、编辑和回放数字声音文件;2.控制各声源的音量,并混合在一起,一遍数字化;3.在记录和回放数字文件时进行压缩和解压缩,以节省存储空间;4.采用语音合成技术,能够让计算机朗读文件;5.MIDI接口4.4.4 声卡的工作原理主机通过总线将数字化声音信号以PCM的方式送到数模转换器(D/A),将数字信号变成模拟信号;同时又可以通过模数转换器(A/D)将麦克风或CD的输入信号转换成数字信号。

声音处理芯片,是核心芯片,是一个完整的音频子系统电缆,通过对音频信号的转换控制加工处理,在计算机上实现较理想的音响效果其含有A/D、D/A转换器以及可重构数字滤波器、设置增益值和衰减值的模拟混合器和数字混合器、并行总线接口,实现音频数据获取和播放的全双通道合成器芯片,其由总线接口、发声电源、定时控制三部分组成4.5 语音合成技术及应用语音识别和语音合成技术时实现人和计算机进行语音通信所必须的关键技术语音合成:包含两个可能性:一是机器能再生一个预先存入的语音信号,就像录音机只是采用数字技术;一种是采用数字信号处理方法4.5.1 共振峰合成基于共振峰理论的三种实用模型:1.级联型共振峰模型;2.并联型共振峰模型;3.混合型共振峰模型4.5.2 LPC参数合成LPC参数合成其本质是一种实践波形的部门技术,目的是为了降低时间域信号的传输速率需要与其他技术结合才能明显改善LPC合成质量4.5.3 语音合成的三个层次按人类语言功能的不同层次可分三个层次:1.从文字到语音的合成;2.从概念到语音的合成;3.从意向到语音的合成4.5.4 语音合成技术的应用:1.人机对话;2.咨询;3.自动播音;4.助讲助读;5.语音教学;6.翻印。

4.6 语音识别技术的应用语音识别技术的最终目标是人与计算机自由的交谈,及其能听懂人话4.6.1 语音识别技术的发展历史其研究始于20世纪59年代,由AT&A Ball实验室实现Audry 10词识别语音系统,60年代提出动态规划和线性预测分析技术,后者解决了语言信号产生模型的问题,70年代动态规划技术得到进一步发展,动态实践规正技术成熟,提出了矢量量化和隐马尔可夫模型理论在实践上实现了基于线性预测倒谱和动态实践规正技术的特定人孤立语音识别系统,80年代HMM模型和ANN人工神经元网络在语音识别中的成功应用,90年代语音识别由实验室走向大众4.6.2 语音识别技术其所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等语音识别技术主要包括:特征提取技术、模式匹配准则、模型训练技术三个,另外还涉及到语音识别单元的选取1.语音识别单元的选取:选择识别单元式语音识别研究的第一步,其有单词(句)、音节和音素三种单词单元主要用于中小词汇识别系统,不适合大词汇系统;音节多见于汉语语音识别,因为汉语为单音节语言;音素中英语音识别都用2.特征参数提取技术:常用的声学特征有线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP3.模式匹配和模式训练技术:模式匹配时根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

模型训练是指按照一定的准则,从大量已知模式中获取该模式本质特征的模型参数4.6.3 语音识别系统的类型语音识别系统的几种分类方式:按对说话人的依赖程度可以分特定人非特定人语音识别系统;按对话人说话方式可以分孤立字词语、连接词、连续语音识别系统按词汇量大小可分小词汇量、中等词汇量、大词汇量和无限词汇量语音识别系统1.特定语音识别系统:可以训练特定人的系统来识别更大的词汇表,但也存在限制:需要彻底的训练,因为要把单词输入系统重复很多次;为识别大词汇表中的单吃需要大量的存储;为识别单词进行的搜索时间更长2.非特定人语音识别系统:可以识别任何用户的语音3.孤立词语语音识别系统:一次只提供一个单词的识别4.链接词语音识别系统:识别句子5.连续语音识别技术:主要的两个问题:一是分割和标志过程,把语音段标记成代表音素、半音节、音节和单词更小的单元,二是为跟上输入语音并实时地识别词序列所需的计算能力连续语音识别技术的三个组成部分:一是数字化、幅度归一化、时间归一化和参数归一化:二是分割并把语音段标记成在基于知识或基于规则系统上的符号串:三是设计用于识别词序序列而进行语音段匹配4.6.4 语音识别的应用:1.语音邮件的集成;2.数据库的输入和询问应用;3.语音命令和控制应用。

第5章 光盘存储5.1 光盘的发展历史CD-DA过度到CD-ROM两个重要问题:一个是计算机如何寻找光盘上面的数据,二是CD作为计算机的存储器时要求错误率远小于声音数据的错误率光盘存储的主要历史事件:1.1980,PHILIPS、SONY 制定CD-DA标准;2.1982,SONY 第一台CD播放机 CDP-101,第一张 CD;3.1984,SONY 第一台汽车CD播放机和便携式CD播放机;4.1985,PHILIPS、SONY定义了 CD-ROM标准;5.1989PHILIPS、SONY定义了交互式CD-I标准;6.1990,PHILIPS、SONY将 CD-ROM 标准扩展为CD-ROM XA 和CD-R标准;7.1994,CD-ROM成为家用计算机标配;8.1995,可擦写CD和 CD+标准;9.1995.9,SNOY 和其他8家公建立了DVD格式统一标准不同格式光盘之间的主要差别:1.CD-DA盘存放数字化的音乐节目,可以播放74分钟;2.CD-G存放静止图像和音乐节目;3.CD-V存放模拟的电视图像和数字化声音;4.CD-ROM盘存放数字化文、图、声、像等,650MB,动画、动静态图像;5.CD-I存放数字化的文、图、声、静止像、动画等;6.CD-I FMV存放数值化的电影、电视节目等;7.卡拉OK CD 存放数字化的卡拉OK节目;8.Video CD存放数字化的电影、电视节目,70分MPEG-1数字影视节目;9.DVD存放高清晰数字化的电影节目等。

技术皮书说明标准 盘名 应用目的 播放时间 显示图像红皮书 CD-DA 存储音乐节目 74分钟 动画动静态图像黄皮书 CD-ROM 存储文、图、声、像 650MB 动画静态图像绿皮书 CD-I 存储文、图、声、像 760MB 橙皮书 CD-R 读写文、图、声、像 白皮书 Video CD 存储影视节目 70分钟MPEG-1 MPEG-1质量红皮书+ Video-CD 存模拟电视数字声音 5~6分钟电视20分钟声音 CD-Bridge Photo CD 存储照片 静态图像蓝皮书 LD 存储影视节目 200分钟 模拟电视图像5.2 CD盘的结构CD盘主要由保护层、反射激光的铝制反射层、刻槽和聚碳酸酯衬垫组成CD盘的光道与软磁盘磁道的不同:磁盘存放数据的磁道是同心环,磁盘片转动角速率是恒定的,用CAV表示,所以不同磁道的线速度是不同的,同心圆结构虽然简单,但外磁道存储密度低利用率不高CD盘采用螺旋型光道,长约5km,其转动线速度恒定,盘片可充分利用,但随机存储特性变差5.3 CD-ROM盘制作过程在制作原版盘时,是用编码后的二进制数据去调制聚焦激光束,如果写入数据为0就不让激光通过,为1就使其通过。

原版盘的玻璃盘上面涂有感光胶,曝光的地方经过化学处理后就形成凹坑,没有曝光的地方保持原样,再经过化学处理后的玻璃盘表面上镀层金属,制作成母盘,然后用母盘压制DVD光盘5.4 CD-ROM光盘与驱动器5.4.1 CD-ROM标准CD-ROM标准即黄皮书红皮书与黄皮书相比红皮书对2352字节的用户数据进行了重新定义,解决了CD-ROM作为计算机存储器的两个问题,一是计算机的寻址问题,二是误码率的问题5.4.2 CD-ROM驱动器1.基本知识:CD-ROM驱动器即光驱,是一种读取光盘盘片数据的一种设备2.工作原理:光驱常见部件有光盘托盘、托盘开关、耳机孔、和音量控制按钮其背面有四孔电源线,一条数据传输线和一条链接到声卡的线光驱三种数据接口:一是早期的AT bus接口,二是主流的IDE接口,三是SCSI接口激光头主要组成:激光发生器、半反射棱镜、物镜、透镜和光电二极管5.5 DVD驱动器5.5.1 DVD的物理特性DVD提高容量的两种方法:一种是减少光道距离和凹坑尺寸;一种是增加数据记录层的层数DVD与CD的主要区别:但DVD光道之间的距离由原来的1.6微米缩小至0.74微米,记录信息的凹凸坑长度由0.83微米缩小至0.4微米,且可以制作到双面双层。

DVD与CD的物理特性区别CD :直径120mm,厚度1.2mm,轨道间距1.6微米,最小坑长0.834微米,波长780nm目标镜头的NA*0.45,容量0.65GBDVD:直径120mm,厚度0.6mm,轨道间距0.74微米,最小坑长0.4微米,波长650nm目标镜头的NA*0.6,容量4.7GBDVD的不同参数:DVD-5,单面单层4.7GBDVD-10双面单层9.4GBDVD-9单面双层9.4GBDVD-18双面双层17GB5.5.2 DVD视频编码技术:采用MPEG-2压缩技术5.5.3 DVD音频格式及编码技术:音频采用杜比AC-3技术,包括立体声和5.1环绕立体声声道5.5.4 DVD盘片的生产过程:1.数据处理;2.母盘刻录和压模制备;3.复制;4.黏合,分热黏合和紫外线黏合5.5.5 DVD播放机:其内部有5部分,托盘、电源电路板、影音解码器(MPEG-2解码器)、功能控制电路板、影像音频转换输出板DVD/CD信号拾取系统主要的4种方案:1.单激光头双聚焦镜方案;2.单激光头单聚焦镜双聚焦点方案;3.双激光头双聚焦镜方案;4.单激光头双波长激光方案DVD的伺服控制电路包括光学和机械等元件,分为:1.聚焦伺服;2.循轨伺服;3.主轴电机伺服;4.信号处理系统。

5.5.6 DVD区码:六个区,两种区码控制系统,一是RPC 1类型,二是RPC25.6 CD-RM驱动器5.6.1 CD-R盘分为CD-MO可擦写磁光盘和CD-WO一次写入CD-R盘两种盘5.6.2 CD-RW是CD-R的补充,具有兼容CD-R刻录和数据存储两大功能1.CD-RW结构同CD-ROM基本相同,只是在盘中增加了可改写的染色层2.刻录方式和存储格式:主要有整盘刻录、轨道刻录写和多段刻写3.速率和质量:速率有刻录速率、写入速率和读取速率3个指标,前两个为其主要指标4.接口和规范:接口有IDE、SCSI、并行接口和USB四种5.6.3 COMBO驱动器:多功能光盘驱动器5.7 下一代光存储技术5.7.1 蓝光技术:5.7.2 HD DVD5.7.3 EVD、FVD和NVDEVD的主要创新在于:1.音频视频的滤波变换、编码解码优化方法,改善音响画面素质及增加数据压缩比特率;2.承袭自SVCD的“数字视频上动态叠加字幕”方法,可令字幕以256色显示EVD技术特点:视频方面,标准清晰度外还有自VCD质量到全高清8种不同视频质量;音频方面,自主产权EAC音频压缩技术;字幕方面,256色可浮动可透明显示。

5.8 光驱应用技术:1.True X技术;2.人工智能纠错技术;3.自动平衡系统;4.双动态抗震悬吊想系统;5.数字伺服系统技术第六章 多媒体计算机软件多媒体软件的主要任务:是使用户能够方便、有效地组织和调整多媒体数据,让多媒体硬件去处理相应的媒体数据,实现音频、视频同步,真正实现多媒体的信息表达方式 6.1 多媒体软件的分类多媒体软件分为5类:驱动程序、支持多媒体的操作系统或环境、多媒体数据库准备软件、多媒体编辑创作软件和多媒体应用软件6.2 多媒体驱动程序驱动程序及其作用: 多媒体系统中直接和硬件打交道的软件称为设备驱动程序,它完成设备的初始化、设备各种操作以及基于硬件的压缩和解压缩、图像快速变换等基本硬件功能调用设备驱动程序课分为两类:应用程序装载的可装载驱动程序和可自动运行与装卸的驻留驱动程序在Windows环境下,驱动程序的装载时通过Windows的初始化配置文件来完成的VMMA是Windows运行环境的核心,它提供创建管理虚拟机的各种服务虚拟设备驱动程序用于VMM的设备独立性,它管理计算机的硬件设备和驱动程序,确保应用程序之间不会相互干扰Windows的动态链接库则为所有的Windows应用程序提供系统调用服务和系统图形资源。

6.3 多媒体操作系统多媒体操作系统在驱动软件之上,是多媒体软件的核心,其主要任务和特征如下:负责多媒体环境下多任务的调度;保证音频、视频同步控制以及信息处理的实时性;提供多媒体信息的各种基本操作管理;具有对设备的相对独立性与可扩展性 目前的操作系统在支持连续媒体应用中还面临着许多的问题来自两方面:1.操作系统缺乏实时性支持,只能提供更好的计算能力;2.缺乏基于服务质量的管理,以及系统能够保证现有应用的服务质量6.3.1 Windows 9x/ME对多媒体的支持Windows 95具有的多媒体功能包括:对音频、视频和图像的压缩服务,对软件开发的开发接口Video for Wondows Runtime 使得在Windows 95机器上运行数字视频成为可能增强的MIDI提供多达16个通道和多种设备的支持Sound Recorder让用户通过麦克风、MIDI接口甚至CD记录自己的声音CD Player 允许播放CD音乐多任务可细分为进程与线程的交互作用和两种任务模型:协作的和抢先的Windows 98比 Windows 95的优点体现在以下几个方面:1.真正的Web集成----活动桌面、频道栏、新闻组、联机会议和个人Web服务器使得网络应用更加出色。

2.娱乐丰富多彩3.新硬件的支持------增强三维图形及视频回访处理4.联机广播查看------可从Web 或Intranet接收网络流式多媒体内容,可同步处理视频、音频和图形数据,还可收听收音机或将电视新闻频道直接引入5.桌面主题-----不同的桌面主题对应着从视图到声音多方面不同的系统使用风格,不但有趣,还能体现用户个性Windows Me 中的新功能1.My Pictures 文件夹:类似我的文档文件夹,方便打开和管理图片文件2.图片的浏览和处理:集成了简单快速的图片浏览器3.影音欣赏的中心——媒体播放器:WMP7.0播放器4.家庭影院——DVD播放器:自带的DVD播放器5.影像制作——WMM:windows movie maker缩写,入门视频制作工具6.3.2 Windows NT多多媒体的支持 Windows NT 支持多种多媒体设备,包括:1.采样和重够模拟语音信号的波形音频硬件;2.链接到外部音乐设备的MIDI接口;3.计算机自身板上MIDI合成器;4.数字化单帧和连接视频信号的视频捕获设备;5.CD播放器、视盘播放器和游戏棒等相关设备WINMM是个用户模式动态链接库,作为应用程序和实际控制媒体硬件的厂商提供的驱动程序之间的转换层。

WINMM为了完成它的工作,依赖于以下3种驱动程序:1.MCI驱动程序;2.低级音频驱动程序 ;3.内核模式设备驱动程序 6.3.3 WindowsXP 对多媒体的支持 Windows XP的数字媒体处理功能是通过媒体播放器、个人屏保和快速图片浏览等应用程序来实现的Windows XP提供了WIA系统,让用户可以方便地在任何图像处理软件中直接获取数码相机或扫描仪中的图片资源WindowsXP 还提供了快速图片浏览功能,可以快速浏览绝大部分的图片格式6.3.4 Windows 2003对多媒体的支持Windows2003服务器提供功能强大的企业流式数字媒体服务----Windows多媒体服务Windows 多媒体服务提供了自动编程的能力6.3.5 Windows Viste 对多媒体的支持Windows Viste主要了以下功能:1.整合了Windows多媒体中心平台;2.在音频方面,音频驱动工作在用户模式,提高了稳定性,同时速度和音频保真度也提高了不少,内置了语音识别模式,带有针对每个应用程序的音量调节;3.内置了Windows Medio Player 11;4.在系统任务栏里的缩略图播放视频6.3.5 Linux对多媒体的支持:1.XMMS-----Linux下的MP3player.;2.GNONM CD player-----一款基X-Windows的CD播放软件;3.Realplayer for Liunx------RM格式的影音文件是网上广为流传的电影格式。

6.4 多媒体数据准备软件:是指用于采集多种多媒体数据的软件,如声音录制、编辑软件等6.4.1 环境下声音数据的采集Windows 环境中可以通过它提供的MCI命令来控制声卡要想用波形音频函数来控制声卡,必须要经过以下步骤:1.打开波形输入设备;2.为采样数据分配缓冲空间;3.启动波形输入设备;4.关闭语音输入设备6.4.2 Windows环境下视频数据的采集数字视频数据时通过对模拟视频信号的音频、视频信号同步捕获并数字化而得到的视频图像输入的两种方式:一是捕获卡加模拟摄像头,二是基于USB接口数字摄像头1)VFW简介:VFW是Microsoft公司1992年推出的关于数字视频的一个软件包,它能使应用程序从传统模拟视频源得到视频剪辑,采用ACI标准VFW主要有以下6个模块组成:1.AVICAP.DLL----包含了执行视频捕获的函数,给AVI文件I/O和视频、音频设备驱动程序提供一个高级接口2.MSVIDEO.DLL-----用一套特殊的DrawDib函数来处理屏幕上的视频操作3.MCIAVI.DRV-------包含对VFW的MCI命令的解释器4.AVIFILE.DLL-------支持由标准多媒体I/O函数提供的更高的命令来访问AVI文件5.压缩管理器(ICM)-----管理用于视频压缩--解压缩的编解码器6.音频压缩管理器(ACM)-----提供与ICM相似的服务。

它适用于波形音频2)AVICap编程简介 AVICap支持实时的视频流捕获和单帧捕获并提供对视频源的控制用AVICap窗口类创建的窗口被称为“捕获窗”捕获窗具有以下功能:。

下载提示
相关文档
正为您匹配相似的精品文档