文档详情

语言信息处理文本分类报告

ren****ao
实名认证
店铺
DOC
365.52KB
约10页
文档ID:157489455
语言信息处理文本分类报告_第1页
1/10

语言信息处理项目作业名 称: 文本分类的研究与应用 学 院: 计算机 专 业: 计算机科学与技术 班 级: 2010级4班 小组成员: 谢宝娣 2120101205 王怡鸥 2120101202 万德鹏 2120101193指导教师: 鉴萍二 〇 一 一 年 一 月摘 要本文简要分析并介绍了文本分类问题的相关知识首先,介绍了文本分类的整体框架;然后,详细分析了两种常用的文本分析方法——KNN方法和朴素Bayes方法的基本原理与适应场合;之后,通过实验结果验证了这两种分类方法在文本分类问题中的可行性;最后,对未来文本分类的发展方向提出有益的展望关键词:文本分类;文本特征提取;kNN分类方法;朴素Bayes分类方法AbstractThe thesis analyzes and introduces the problem of text classification knowledge briefly. First, it describes the overall framework of text classification. Then, it analyzes the basic principles and the suitable situations of two common text analysis methods which are KNN method and Naive Bayes method. In addition, it proves the feasibility of the two classification methods in the research of text classification by the result of experiments. Finally, it makes a meaningful outlook on the future direction of text classification.Key words: Text Classification; Text Feature Extraction; kNN classification; Naive Bayes classification1 引言Internet技术的发展与成熟,使得人们可获得的信息越来越多。

面对海量信息,,人们已经不能简单地靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法,它作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息的杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义现在,文本分类问题已成为数据挖掘领域中一个重要的研究方向国外文本数据分类的研究始于20世纪50年代末,H.P.Luhn在这一领域进行了开创性的研究,他首先将词频统计的思想用于文本数据分类中[1]1960年Maron、Kuhn在Joumal of ACM上发表了有关文本数据分类的第一篇论文“On Relevance, Probabilistic Indexing and Information Retrieval”[2] 1963年Borko等人提出了利用因子分析法进行文献的自动分类其后许多学者在这一领域进行了卓有成效的研究目前,文本分类方面的文献也非常丰富,常见于信息检索、机器学习、知识挖掘与发现、模式识别、人工智能、计算机科学与应用等各种国际会议及相关的期刊或杂志国内文本数据分类研究起步较晚,始于20世纪80年代初期。

我国文本分类的研究大体上经历了可行性探讨、辅助分类、自动分类系统三个发展阶段本次项目作业的任务目标就是按照文本分类的一般过程和整体框架实现对文本的自动分类, 本系统使用的语料库是搜狗语料库2 文本分类的整体框架文本自动分类是分析待定文本的特征,并与已知类别中文本所具有的共同特征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号[3] 文本分类的一般包括了文本预处理、文本特征提取、分类算法的选择、分类结果的评价与反馈等过程,本节主要介绍文本分类的整体框架,如图2-1所示图2-1 文本分类的整体框架2.1 文本预处理任何原始数据在计算机中都必须采用特定的数学模型来表示,目前存在众多的文本表示模型,如:布尔模型,向量空间模型,聚类模型,基于知识的模型和概率模型等[4]其中向量空间模型(VSM)具有较强的可计算性和可操作性,本节的文本预处理就是基于向量空间模型实现的对于基于向量空间模型的文本预处理,主要由以下几个步骤来完成:1.中心分词;2.去除停用词;3.文本特征提取下面主要针对这三个方面介绍如下1.中文分词中文分词是对中文文本进行分析的第一个步骤,是文本分析的基础自然语言处理技术在不断的发展中,现在的中文分词技术主要有以下几种:基于字符串匹配的分词技术、基于理解的分词技术和基于统计的分词技术。

在本系统中,采用中国科学院计算机技术研究所研制出的基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology , Chinese Lexical Analysis System)进行中文分词2.去除停留词所谓停用词是指汉语中常用到的“的”、“了”、“我们”、“怎样”等,这些词在文本中分布较广,出现频率较高,且大部分为虚词、助词、连词等,这些词对分类的效果影响不大文本经中文分词之后,得到大量词语,而其中包含了一些频度高但不含语义的词语,比如助词这时可以利用停用词表将其过滤,以便于文本分类的后续操作3.文本特征提取文本经过中文分词、去除停留词后得到的词语量特别大,由此构造的文本表示维数也非常大并且,不同的词语对文本分类的贡献也是不同的因此,有必要进行特征项选择以及计算特征项的权重1)特征项的选择目前,存在多种筛选特征项的算法:文档频率(DF,Document Frequency)、信息获取(IG,Information Gain)、互信息(MI,Mutual Information)、开方拟合检验(CHI,x2-test)、术语强度(TS,Term Strength)。

提取效率的高低为:CHI,MI>DF>TS>IG[5]作为特征选择算法CHI算法的主要思想是认为词汇与类别之间符合统计,统计量的值越高,词汇与类别之间的独立性就越小统计量计算公式如下: 公式(2-1)其中,表示训练集中的文档总数,表示属于主题且包含特征项的文档个数,表示属于主题但不包含特征项的文档个数,表示包含特征项但不属于主题的文档个数,表示不包含特征项且不属于主题的文档个数特征项对主题的统计值越高,与该主题之间的相关性就越大具体特征项的选择根据特征项的CHI值来判断当CHI不低于某一阈值时,选择该特征项2)特征项权重的计算为了更好的反映词语对文本内容类别的贡献程度,而选择词语包含的信息来实现特征项加权词包含的信息称为加权因子,一般常用的加权因子有:1)词频因子;2)词的位置因子;3)词性因子;4)词的长度因子;5)词的集合频率因子等[6]本系统采用以下公式作为词语权重的计算方法 公式(2-2)其中表示词语在文本中的权重;表示词语在文本中的频率;表示文本中词频最大的词语的频率;为词语的词长;表示分析的文本集合包含的文本数;表示在分析的文本集中包含词语的文本数;表示文本中词长最大的词语的词长[7]。

2.2 空间向量模型文本表示是指以一定的规则和描述来表示文本或者文本类,在过滤时,用这些规则和描述来评价未知文本与给定文本或文本类的相似度[8]目前,存在多种文本表示模型,常用的有:布尔逻辑模型、概率模型和向量空间模型等本系统中,文本采用向量空间模型表示向量空间模型用向量的形式来表示文本,其中是文本中的特征项,是的权重为了简化分析过程,暂时不考虑在文本中的顺序并且互异此时,若把看成一个维的坐标系,则为相应的坐标值,这样便可将文本向量表示简记为,进而把文本之间的表示与匹配问题转化为了空间向量之间的表示与匹配问题向量空间模型的最大优点在于它在知识表示方法上的优势在该模型中,文本的内容被形式化为多维空间中的一个点,并以向量的形式来描述对于文本分类、聚类等处理来说,可以方便地转化为对向量的处理、计算也正是因为把文本以向量的形式定义到实数域中,才使得模式识别和数据挖掘等领域中的各种成熟的计算方法得以采用,大大提高了自然语言文本的可计算性和可操作性因此,近年来,向量空间模型被广泛应用在文本挖掘的各个领域,本文也将对该模型进行详细介绍,并介绍基于该模型的文本预处理方法、技术及改进2.3 文本分类基于统计方法和机器学习的文本分类方法比较成熟,在很多系统中得到应用,常见的有KNN分类方法、朴素Bayes分类方法、支持向量机分类方法和神经网络分类方法等。

鉴于,时间有限是实现的难易程度,本文选择了采用KNN方法和朴素Bayes方法,这两种常用并且比较容易实现的分类方法进行文本分类这两种方法的基本原理将在下一节中进行介绍经过文本分类预处理后,训练文本合理向量化,奠定了分类模型的根基向量化的训练文本与文本分类算法共同制造出了分类模型在实际的文本分类过程中,本系统主要依靠分类模型完成文本分类3 常用文本分类方法本节介绍了当前国内外比较流行的KNN分类方法和朴素Bayes分类方法的基本原理,以及各自分类方法的优缺点与适用范围3.1 KNN分类方法KNN是英文K Nearest Neighbor的缩写,也就是我们常说的近邻法KNN分类方法是最近邻法的一个推广,当取l时就是NN(最近邻)分类方法NN分类方法强调最近点的重要性,而KNN分类方法则从整体考虑,是一种更为普遍的方法,理论认为它的错误率比NN分类方法低[9]采用KNN分类方法进行文本分类的过程如下:在对待测文本分类时,选择训练集合中的已知文本与待测文本之间距离(相似度)最近的个文本,即个“最近邻”,然后将待测文本指派到它的个“最近邻”中的多数类这里常用的相似度测度函数可以选择夹角余弦距离,该距离函数的计算公式如下: 公式(3-1)其中,代表文档向量,代表了用户查询向量(也即用户兴趣向量)。

文档与用户兴趣向量相似度越高,说明文档越符合用户兴趣趋向由于KNN分类方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN分类方法较其他方法更为适合3.2 朴素bayes分类方法朴素Bayes分类器是基于特征独立性假设建立起来的,它假设给定特征对于给定类的影响独立于其它特征,即任意两个特征之间是相互独立的对文本分类来说,这个独立性假设就体现在,假设文档的词的产生独立于它的内容,即词在文档中出现的位置无先后关系假设训练样本集分为类,为任意文本属于={,…, },则每个类的先验概率为,…,是样本属于类的条件概率的计算公式如公式(3-2)所示 公式(3-2)由于,对于所有类均为常数,所以上式可简化为公式(3-3) 公式(3-3)每个类的先验概率的计算公式如公式(3-4)所示 公式(3-4)其中,为类中的文本数,为训练集合的总的文本数由于训练集合中各类训练集合的总的文本数相同,所以相同因此公式(3-3)可变形为公式(3-5) 公式(3-5)朴素Bayes分类方法将未知样本归于类的法则如公式(3-6)。

公式(3-6)其中,…由于文档由其包含的特征词表示,即,是第个特征词,是的特征词个数,因为各个特征相互独立,所以有公式(3-7)成立 公式(3-7)设为在文本中的词频,为特征词总数,为类的训练文本数,则可以表示成公式(3-8) 公式(3-8)为避免,可采用拉普拉斯概率估计[10],于是得公式(3-9) 公式(3-9)朴素Bayes方法的优点是在理论上讲,与其他所有的分类算法相比,Bayes分类具有最小的出错率,在其类条件独立的假定成立的前提下,它是最佳的分类算法它思想简单,便于实现;算法时间复杂度小;算法性能稳定,对于不同特点的数据其分类性能差别不大,即模型的健壮性比较好缺点是朴素Bayes分类模型中的类条件独立性假设有特定的要求,独立性假设在许多实际问题中并不成立但即便如此,它在很多领域中仍然能够获得较好的分类结果4 实验结果与分析本实验分别采用了KNN分类方法和朴素Bayes分类方法作为文本分类算法进行文本分类,训练和测试使用的语料库是搜狗语料库,其中分财经、IT、健康、体育、旅游五类,每类训练样本100篇,测试样本10篇以财经类为例,该类的实验结果如表4-1所示。

表4-1 文本分类的实验结果(财经类)查全率准确率FI测试值KNN方法70%64%67%朴素Bayes方法90%90%90%其中,查全率是指的是分类器分类正确文本数与属于该类的样本总数之比;而准确率是指在分类器判为该类的样本中,真正属于该类的样本所占的比例本实验在一定程度上实现了文本的正确自动分类实验结果表明,KNN方法和朴素Bayes方法作为文本分类方法具有一定的可行性但是本文中系统的实现是建立在“词与词之间都相互独立”这个假设成立的基础上的,而实际上一个文档内词与词、段与段之间有着很强的关联性因此,如果考虑了词与词之间的相互作用,应该可以得到更高的识别率5 发展趋势随着 Internet的飞速发展,网上电子文档和电子邮件的信息量成爆炸趋势,大规模的文本处理已经成为一个挑战目前的文本分类系统中多采用统计和机器学习的方法,这类方法在词典语义的水平上来分析文本内容,判断其相似度,从而得到类别划分,因此其分类的准确率存在瓶颈由于自然语言处理领域的进展缓慢,基于语义的文本分类方法也没有得到太大的发展,目前人们更多地是从概念级来考察文本的语义,并把这种概念的方法与统计和机器学习方法相结合,从而提高文本分类的有效性。

此外,文本分类问题通常要处理大规模的高维文本数据,而且有些数据噪声很大,因此如何构造快速的、能适应数据规模的变化、能较好地解决噪声问题的分类算法一直是研究的热点Web上的文档信息越来越多,这使得 Web文档的挖掘和分类成为一个急需解决的问题Web文档具有和一般文本不同的特点,Web文档中包含了更多的信息,如链接、文档结构等,因此如何利用这些信息实现Web文档的分类也是研究的热点6 总结本次项目作业的如期完成,使我们对文本分类的基本流程有了整体的认识,同时对KNN分类方法和朴素Bayes分类方法的基本原理有了较深刻的理解与掌握,为今后进一步学习和研究语言信息处理的相关方向打下了良好的基础参考文献[1] H.P.Luhn. An Experiment in Auto-abstracting. International Conference on Scientific Information. Washington D.C., 1958[2] 尚文倩.文本分类及其相关技术研究.博士论文.北京交通大学.2007[3] 唐春生,张磊,潘东,王珊.文本分类研究进展. 计算机工程与应用. 2005,32(2):123-127[4] 王银利.基于启发式规则和文本分类的信息过滤技术.硕士论文.北京交通大学. 2007[5] 张玉叶,李连等.文本过滤中的特征抽取应用研究.海军航空工程学院学报.2005,1(32):23-24[6] 韩客松,王永成.中文全文标引的主题词标引和主题概念标引方法.情报学报.2001,20(2):7-9[7] 薛翠芳,郭炳炎.汉语文本特征词的抽取方法.情报学报.2000,19(3):25-27[8] 杨晓懿.基于内容分析的信息安全过滤技术研究.硕士论文.四川大学.2005[9] B.V. Dasarhaty.Nearest Neighbor(NN)Nomrs:NN Pattren Classifieatiion Techniques Los Almaiots.IEEE Computer Society Perss.1991[10] 陈剑敏.基于Bayes方法的文本分类器的研究与实现.硕士论文.重庆大学.2007。

下载提示
相关文档
正为您匹配相似的精品文档