第三章第三章第三章第三章数字文本与文本处理数字文本与文本处理数字文本与文本处理数字文本与文本处理第一节 字符编码 在计算机中,英文采用ASCII码 英文l 文字的编码中文1.汉字的输入编码 数字编码:用数字代表汉字字符,电报码、区位码都属于数字编码 字音编码:指按照汉字的标准化读音,使用拼音作为汉字的编码的方法 字形编码:是指用汉字的形状表示的编码方式这种编码方式将汉字依笔划、偏旁、部首用数字或字母编码,然后根据其组成方式依次输入 形音编码:将汉字字音与字型相互结合的一种编码方法如全息码就是一种音形编码l 文字的编码22.汉字的机内编码 汉字的机内编码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示汉字交换码:指在不同汉字信息处理系统之间进行汉字交换时使用的编码汉字交换码也称汉字国标码GB2312 3.汉字的输出编码用点阵表示的汉字字形代码,汉字的输出形式汉字区位码:国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示汉字的输入编码、汉字内码、字模码是汉字的输入编码、汉字内码、字模码是计算机中用于输入、内部处理、输出三计算机中用于输入、内部处理、输出三种不同用途的编码,不要混为一类。
种不同用途的编码,不要混为一类3 OCR(Optical Character Recognition 光学符号光学符号识别),是指将一份文字稿件以图像形式输入给计算机,识别),是指将一份文字稿件以图像形式输入给计算机,计算机取出每个文字的图像,再将其转换成汉字的编码计算机取出每个文字的图像,再将其转换成汉字的编码存入计算机,以达到汉字输入的目的存入计算机,以达到汉字输入的目的OCR技术解决的技术解决的是已存在于纸介质上的文字如何被计算机识别并接收的是已存在于纸介质上的文字如何被计算机识别并接收的问题由于是对扫描后的图像文件进行识别处理,所以问题由于是对扫描后的图像文件进行识别处理,所以称为脱机汉字识别系统称为脱机汉字识别系统第二节 文本输入技术文文本本输输入入手写识别手写识别 语音识别语音识别光学字符识别光学字符识别(OCR技术)技术)键盘输入键盘输入非键盘输入非键盘输入4第三节 文本编辑与处理l 文本编辑 文本编辑的主要功能 对字、词、句、段落进行添加、删除、修改等操作 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等 段落的处理:设置行距、段间距、段缩进、对称方式等 页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 “所见即所得”(What You See Is What You Get,简称 WYSIWYG):一方面所有的编辑操作效果立即可以在屏 幕上看到,另一方面在屏幕上看到的效果与打印机的输出 结果相同。
5l 文本处理 文本处理的内容 字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换 文本压缩,文本加密,文本著作权保护 关键词提取,文摘自动生成,文本分类 文本检索(关键词检索、全文检索),文本过滤 文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等 文本处理软件6谢谢 谢!谢!。