统计 学与数 据挖掘中国人民大学统计学系数据挖掘中心*(中国人民大学统计学系,北京100872)工业界的广泛关注统计学是搜集、展示、分析及解释数据的科学统计学不是方法的集合而是处理数据的科 学数据挖掘的大部分核心功能的实现都以计量和统计分析方法作为支撑这些核心功能包 括:聚类、估计、预测、关联分组以及分类等统计学、数据库和人工智能共同构成数据挖 掘技术的三大支柱许多成熟的统计方法构成了数据挖掘的核心内容比如:回归分析(多元回归、 自回归、Logistic回归)、判别分析(Bayes判别、非参数判别、Fisher判别)、聚类分析(系统聚类、 动态聚类)、探索性数据分析(Exploratory DataAnalysis,简称EDA)、列联分析等统计方法, 一直在数据挖掘领域发挥着巨大的作用与此同时,从数据挖掘要处理的海量数据和数据的 复杂程度来看,基于总体假定进行推断和检验的传统统计方法,已显露出很大的局限性统计能 否继续作为数据挖掘的有力支撑,数据挖掘将为统计学提供怎样的发展机遇是我们最关心的 问题本文中,我们将以统计学最近40年的发展走势作为论述的起点,逐步对统计方法在数据挖掘算法设计、开发过程中的应用情况,进行全面、系统的考察与分析,进而提出统计学和数 据挖掘协同发展的广阔前景。
二、统计学近40年的走势20世纪60年代是稳健统计盛行的时代稳健统计开创性地解决了与理论分布假定有偏 差的数据分析问题其成果主要包括回归系数的敏感性分柝对异常值(Outliers)、高杠杆点 (Leverage values)以及其他一些对少量污染异常敏感的回归诊断;M -估计量(M -estimator)等稳健估计量稳健统计标志着基于正态假定的理论框架正在打破打破框架的源 动力来自于客观世界里真实的、具有复杂结构的数据20世纪70年代早期,John Tukey提出探索性数据分析(EDA),他通过箱线图等简单方法,指出了统计建模应该结合数据真实分布情况EDA的主要观点是,对数据的分析,不应该 从理论分布假定出发去建构模型,而是从数据的特征出发去研究和发现数据中有用的信息 这一观点恰恰是数据挖掘的核心思想EDA思想的直接体现是,重新提出了描述统计在数据分 析中的重要性,这一简单、直观方法在理解数据方面是极为有用的EDA的这种思想与数据 挖掘过程中的数据理解极为相似EDA更深刻的意义则在于,它为统计学指明了发展方向—— 和数据相结合的道路继EDA之后,统计学在数据分析的道路上,硕果累累20世纪70年代后期,广义线性模型,概括了一个时期以来基于正态理论以外的线性模型研究该理论通过将响应变量的方差分 解成系统和随机两部分,允许建模者通过严格单调的关联函数(Link function)g(p )=£xjp j,调节协方差效应。
虽然当时的函数还只是限定在指数分布族上,但这些模型毕竟为服从两点 分布数据和定性数据提供了 Logistic回归模型,对非对称分布的连续数据也提供了统一的统计 理论这些统计理论同时推动了统计计算的的发展,其中一些成果以算法的形式出现比如 著名的期望一极大化算法(ExpectationM axim ization,简称EM )EM算法,该算法提出了解决不 完整数据估计问题的数值方法EM算法的价值还在于,它传输了这样一个观点,即使数据是 完整的,缺失值在最优估计的计算中也是有用的Logistic回归和EM算法的可操作性,在数 ——5 —[统计学与数据挖掘] 中国人民大学统计学系数据挖掘中心:统计学与数据挖掘listicmodeling Evolutionary algorithm简称 PMEA),来展示统计的广泛适用性1. 统计理论在人工神经网络技术中的应用——概率分析网(PLN)人工神经网络是由一系列称为节点的处理单元组成通过调整节点、输入和输出的权-域 值来实现非线性模式识别该技术自20世纪80年代复兴以来,经过90年代研究热潮至今, 显示了其在解决模式识别、非线性回归优化等方面独有的优点和成效。
PLN网络是基于概率逻 辑的神经网络,它是在传统权-阈值神经网络(典型的一类是Back propagation Hopfield简称BP学习算法)的基础上提出的它的学习速度比相同问题的BP算法的学习速度快百倍(两 个数量级),这说明基于统计逻辑的PLN网络在某些性能上比权-阈值网络强在理论研究中,由于神经网络节点构造的特殊性人们早已通过随机过程,比如马尔科夫链(M arko▼)等工具,对PLN网络进行定量分析,研究神经网络各状态之间转移的概率和收敛 情况甚至在未完全知道网络对应的转移矩阵的情况下,借用统计模拟计算工具,给出平均收 敛步长的变异结果2. 统计思想在数据挖掘学习方法上的贡献——贝叶斯网络早在20世纪80年代,贝叶斯网络就成功地应用于专家系统,成为表示不确定性专家知识和推理的一种流动方法近来,贝叶斯学习一直是机器学习研究的重要方向由于概率统计 与数据采掘的天然联系,数据挖掘兴起后,贝叶斯网络日益受到重视,再次成为引人注目的热点 贝叶斯网络是一个带有概率注释的有向无环图这种概率图模型能表示变量之间的联合概率 分布(物理的或贝叶斯的),分析变量之间的相互关系,利用贝叶斯定理提示的学习和统计推断 功能,可以实现预测、分类、聚类、因果分析等数据挖掘任务。
学习贝叶斯网络指的是利用 样本数据更新网络原有参数或结构的先验分布比较简单的问题是:给定贝叶斯网络的结构,利用 给定样本数据学习网络的参数(概率分布)更为复杂的问题是:网络的结构也没有确定,利用 给定样本数据学习网络的结构和参数当样本数据不安全时除了少数特例外,一般要借助于 近似方法,如蒙特卡罗(Monte-Carlo)方法,求极大似然(ML)或极大后验(MAP)等3. 统计在遗传算法中的应用——概率进化算法(PMEA)遗传算法(GeneticAnalysis,简称GA),是基于人工选择和交叉、变异、重组等操作构成的 一种优化方法,GA通过对大量的构造块进行选择和重组操作,再生和混合更多好的构造块, 最后逼近解,但由于实际的重组操作常导致构造块破环导致算法或者逼近局部最优或者早 熟,构造块破坏问题一般称为连锁(Linkage)问题为了克服GA因交叉重组导致的连锁问题人们通过从优选的解集合中提取信息的方式 代替重组操作,然后利用这种信息的分布概率产生新的解,由此实现算法的连锁学习,这种将 构造性概率模型引入进化算法的思想形成概率分析进化算法(PMEA)的理论依据此外,如何 将压缩遗传算法的概念进一步扩展到其它概率模型达到降低算法复杂性的目的;如何将问题 的预先知识引进PMEA,使得算法更为快速和精确;以及PMEA中的各种参数的选择(如群 体规模,选择机制和选择比例等)等等都是目前该领域的热点研究问题。
目前,概率分析进化算法已成为并行计算中的重要和流行的研究方向PMEA的特点是 把自然进化算法和构造性统计分析方法结合,以指导对问题空间的有效搜索二)统计对数据挖掘过程的贡献数据挖掘是一个过程,它从大量数据中抽取出有价值的信息或知识由于不同数据挖掘技 ——7 —[统计学与数据挖掘] 中国人民大学统计学系数据挖掘中心:统计学与数据挖掘 世时,就成为其中著名的方法80年代以后,由于计算机的引入,数据模拟和非参数统计方法得到很大的发展首先是产 生于50年代后期的刀切法(Jackknife)应用的开始,它通过剔除一个或更多个观测值重新计算 估计量,得到许多虚拟值(Pseudovalue),用虚拟值加权平均作为参数的估计这样做的好处在 于,不仅可以减少估计的偏差,而且提供衡量任意一个估计变异程度的计算方法之后,Efron 在此基础上,提出了有放回的重抽样(Resampling)方法,称之为自助法(Bootstrap)这些方法 的可操作性,为统计的广泛应用打开了方便之门,数据挖掘通过它很快将其中的一些技术用于 模式识别之中80年代后期在非参数领域中,核光滑方法(KernelSmoothing)以局部估计的特点,展示了 统计在处理变量的非线性关系中的作为。
90年代,由于许多应用问题和统计问题都存在对象 复杂和正确识别模型结构的困难,这些问题推动了统计技术的研究比如,通过马尔可夫链蒙 特卡罗方法(M arkov ChainMonte Carlo,简称MCMC)模拟,解决复杂性问题此外,由于 MCMC和Bayes的渊源,许多新的统计技术诞生,他们为统计的应用开辟了更加广阔的前景 综上所述,统计早在60年代末就开始了其研究思路的转变Elder和Pregibon于1997年 指出:从EDA出现以卮统计学逐渐摆脱古典框架即正态假定,注重数据分析方法的研究, 研究的重点逐渐从模型解释转向模型选择研究,研究范围涉及生成模型结构的整个搜索过程 全部搜索过程包括数据的理解、污染数据的鉴别、异常数据的诊断、数据建模、模型参数估 计、模型的评价等各个方面这个过程恰恰与KDD解决问题的系统流程是相似的而后者通常 会包括问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所 建的模型从这条线索不难看出,统计的发展方向和KDD所要实现的目标是一致的事实上,早在EDA提出之时,就已经显露出“数据挖掘”的萌芽那么数据挖掘的概念为 什么没有从EDA提出时就形成概念并发展起来呢?笔者认为,这主要是受当时的计算能力和 信息发展水平的限制。
EDA提出时的信息技术还相当局限,待处理数据的量不大,数据存储结 构也不足够复杂,这样,数据挖掘就一直以一种弱化的方式存在于统计学的研究中另外,统计 学的发展没有和信息技术紧密结合也是一个不容忽视的问题,统计学在充分利用数学工具来 完善理论的过程中,没有实时地关注信息领域对数据分析工具的要求致使统计最新的方法由 于缺乏普遍的算法表现形式,在信息领域没有得到充分的施展随着信息化水平的提高,统计与数据挖掘的应用平台渐趋统一从数据分析到KDD,再到 数据挖掘,这一过程演变的诱因同样影响着统计学和信息技术的发展随着数据源的不断膨 胀和数据结构的日益复杂,单纯依靠数据挖掘技术,已渐露力不从心之态,而统计学的同步发展, 正不断充实、完善着数据挖掘技术三、统计学在数据挖掘技术创新中的贡献(一)统计学在数据挖掘方法创新中的贡献数据挖掘方法主要包括决策树、关联分析、人工神经网络、遗传算法、机器学习和可视化方 法等最近几年,由于统计的加盟,使这些方法焕发出勃勃生机笔者只列举几个计算机领域的 热点问题,如概率分析网(Probability AnalysisNet,简称PLN)、贝叶斯网、概率进化算法 —6-统 计 与 信 息 论 坛2002年第1期:2001-12-10*本中心成员有袁卫、吴喜之、谢邦昌、易丹辉、王星、薛薇、赵绍忠、戴稳胜、匡宏波、 伍叶峰等。
本文执笔人为王星、赵绍忠、戴稳胜编者按:随着数据库、互联网技术等信息技术的迅速发展数据挖掘技术结合统计学、机器学习和数据仓库来发现数据背后的知识这种结合的思想使数据挖掘受到 各学科的关注,成为热点研究领域,统计学也不例外中国人民大学统计学系数据挖 掘中心的老师和研究生们,在国内较早地开展了统计学和数据挖掘的研究,目前已经 取得一些阶段性成果为展现这方面的成果本刊开辟“统计学与数据挖掘”专栏,共 同研讨这一新的学科领域,欢迎从事此领域研究的作者赐稿摘要:文章以统计学最近40年的发展走势作为论述的起点,逐步对统计方法在数据挖掘算法设计、开发过程中的应用情况进行客观、系统的介绍和分柝进而提 出统计学和数据挖掘协同发展的广阔前景关键词:统计;数据挖掘;信息技术中图分类号:C812文献标识码:A文章编号:1007-3116(2002)01-0004-06'一、前 言20世纪80年代末,随着数据库、互联网技术的迅速发展以及管理信息系统(M IS)及网络 数据中心(IDC)的推广应用,数据的存取、查询、描述统计等技术已日臻完善但高层次的决策 分析、知识发现等实用技术还很不成熟,导致了 “信息爆炸”但“知识贫乏”的现象。
到了 90年代,人们提出在数据库基础上建立数据仓库,应用机器学习和统计分析相结合的方法处理数 据,这两者的结合促成数据挖掘(DataM ining,简称DM )技术的诞生Fayyad, Piatetsky-Shapiro和 Smyth 于 1997 年指出:知识发现(Know ledge Discoveryfrom Databases,简称KDD)是从数据库中发现知识的全部过程而数据挖掘则是此过程中的 关键步骤一般认为,数据挖掘是从大量的、不完全、有噪声的、模糊的、随机的实际数据 中,提取隐含在数据中的人们事先不知道但又是潜在有用的信息和知识的技术和过程数据挖掘因 其巨大的商业前景,现已成为国际上数据库和信息决策领域最前沿的研究方向之一,并引起了 —4-实现步骤各不相同,成功应用数据挖掘技术、达到目标的过程就是一件很复杂的系统工程一股数据挖掘项目要经历的过程包括:问题的理解,数据的理解、收集和准备、建立数 据挖掘模型、评价所建的模型、应用所建的模型等一系列任务数据挖掘过程的系统化、结构 化和支持系统(软件或工具)对解决问题起着至关重要的作用统计思想在数据挖掘整个系统中的 各个阶段都担负着不可忽视的重任,用统计学方法开发的工具可用于数据的抽取、清洗、转 换、整合等方面,统计逻辑推理还可以让数据分析员站在更高层次上进行数据的模式识别。
比如 在数据挖掘中,经常面对的问题是,由于各种挖掘算法生成的规则过多,而无法对规则进行筛 选、甄别和剔除,这是挖掘模型评估中的关键问题统计方法在模型评估方面近年来取得了 许多进展,比如:基于统计检验的49er的搜索算法,这一算法用来从杂乱无章的数据中发现那些 混沌关系模式一个非线性系统可以产生许多的数据关系模式,但并不是每一个模式都是有 * 意义的,人们从统计逻辑推理中提出一种解决从复杂关系模式中剔除混沌随机关系的49er方 法49er可以对搜索过程中的每一个假设模式用统计量度量其充分性和预测能力如果统计 量过大则归为虚模式而予以抛弃49er较传统的神经网络方法具有较强的二维模式识别 能力四、数据挖掘为统计学的发展带来了机遇“需求乃发明之母”,包括统计学在内的许多科学电很多方法和思想都来源于现实的需 求40年前,偏离正态的数据分析和探索性数据分柝是对传统统计理论框架的一次巨大的挑 战,这次挑战使统计学在数据分析方面喜获丰收,而这次挑战更深刻的意义则在于,它使统计 学信心十足地将自己定位于数据分析的科掌这样的定位就要求统计能够实时应对各种环境 下数据提出的分析要求如今,当待处理的数据单位已经以GB(109)或TB(1012)字节来计算时,仅能应付数据集的统计分析方法,已经不能满足数据挖掘的要求。
这种挑战不仅体现在统计方法的计算方面 同样也体现在统计理论方面,具体表现为:统计推断的基础“总体”和“样本”的概念是否还 继续适用?理由是面对如此大量的数据很难定义总体和样本大样本渐近性质是否满足?理由是由 于数据量太大,传统的统计量无论真实情况如何都会变得“显著”;统计假设检验使用的小概 率原理是否还适用?因为假定小概率事件在一次实验中不会发生是合理的,而数据量大到一定程度之后,小概率事件一定会发生无论如何,这些问题都将带给统计学再次发展自己的机遇 面对这次机遇,统计学应该象40年前一样,积极加盟数据挖掘的研究笔者认为具体应重 视三方面的问题:1、 强调需求,重视过程和结果虽然统计学和数据挖掘一样,都是在寻求实际数据解决方案的过程中成长起来的,然而统 计学家更关注模型,运用数据仅仅是为了发现新的模型,而数据挖掘则更强调知识的价值模 型是用来发现知识的工具强调需求重视过程和结果才能实现统计创新2、 借鉴机器学习的特点,提炼方法,以算法的形式体现方法统计学早已脱离正态的传统框架发展方法但是由于统计最新的可以被直接使用的成果 太少,不仅阻碍了人们对统计方法的运用,甚至造成对先进统计方法的不甚了解。
数据挖掘的 —8 —统 计 与 信 息 论 坛2002年第1期兴起,为统计学与信息技术的结合带来了发展的契机计算机技术将成为继数学之卮又一推 动统计学发展的强大工具3、发挥统计软件的优势许多“傻瓜”统计软件的设计,更适合统计学家研究使用,任何一个初通统计的数据分析员 要想通过软件来进行数据分析,都极有可能由于对数据涵义的不求甚解,导致脱离实际的统计 模型的滥用,数据挖掘软件也是如此;SAS和S-plus被设计为可以通过编程来调节软件的默 认属性,用这样的软件工作可以增强统计研究者的算法意识;最后,统计软件为统计研究的目 的,在图形和可视化方面的互动操作,应该在数据挖掘的软件中体现这一思想因为它可以帮 助数据分析员理解高维数据复杂的结构从数据挖掘在国际上的发展来看•,数据挖掘的研究重点已从提出概念和发现方法,转向系 统应用和方法创新上,研究注重多种发现策略和技术的集成以及多种学科之间的相互渗透 数据挖掘技术迫切需要系统、科学的理论体系作为其发展的有力支撑最近,由经验统计方 法和人工智能相结合而产生的衍生技术如分类回归树(ClassificationAnd Regression Tree,简 称 CART),卡方自动交互探测法(Chi-squareAutomatic InteractionDetector简称 CHAID)等前沿方法,以算法的形式展示了统计和信息技术结合发展的新方向。
这些都预示着数据挖 掘技术与统计学的集成已成为必然的趋势我们坚信,随着统计学与现代信息技术的融合在方法上不断进行新的探索,一定会为统 计学和数据挖掘未来的发展开辟一片新的天地[参考文献][1] John F.Elder IV, DarrylPregibon, A StatisticalPerspective onKnow legdeDiscovery in Databases, Principles of data m ining and know ledge discovery: First European Symposium, PKDD '97, Trondheim,Berlin, New York, Springer.[2] Hand.D. J.,DataM ining:Statistics andM ore? American Statistician, 52, 1998, 112-118.[3] Hand. D. J. Data m ining: New challenges for Statisticians, Social Science Computer Review,Vol. 18, No. 4,W inter 2000, 442-449.⑷林亚平.概率分析进化算法极其研究进展[J].计算机研究与发展.2001, (1).[5] 张尧庭,谢帮昌,朱世武.数据挖掘入门及应用一从统计技术看数据挖掘[M ].中国统计教育 学会组编. 2001.[6] 王双成.贝叶斯网络结构学习分析[J].计算机科学.2000, (10).[7] 王吉利,张尧庭.数据淘金一统计学的新进展[N ].中国信息报.2001-02-21.[8] http: //www. datam ininglab. com 研究资料汇编。
[9] 张南.20世纪统计学的回顾与展望[J].统计研究,2000, (9).[责任编辑:张治国]。