单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,吉林师范大学管理学院,数据挖掘与客户关系管理,,案例 卓越亚马逊的推荐系统,,学习目标,通过本章的学习,将能够:,,理解数据挖掘的含义,,熟悉数据挖掘的功能,,熟悉数据挖掘的主要技术,,掌握数据挖掘的业务流程,,了解客户关系管理对数据挖掘的需求,,理解数据挖掘在客户关系管理中的作用,,CRM,与数据挖掘,10,.1,数据挖掘概述,,10.2,数据挖掘的任务、技术和实施过程,,10.3,,数据挖掘,在,CRM,中应用,,10.4,CRM,数据挖掘应用实例,,10.5,,数据挖掘软件在,CRM,中的应用示例,,10.1,数据挖掘概述,10.1.1,数据挖掘的产生,,10.1.2,数据挖掘的定义,,10.1.3,数据挖掘的技术,,10.1.4,数据挖掘的功能,,10.1.5,数据挖掘的流程,,10.1.,6,数据挖掘的,发展方向,,10.1.1,数据挖掘,的产生,数据爆炸但知识贫乏,,支持数据挖掘技术的基础,,数据挖掘逐渐演变的过程,,数据挖掘,数据库越来越大,有价值的知识,可怕的数据,数据爆炸但知识贫乏,,数据挖掘的出现,数据爆炸,知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,模式,,趋势,,事实,,关系,,模型,,关联规则,,序列,目标市场,,资金分配,,贸易选择,,在哪儿做广告,,销售的地理位置,金融,,经济,,政府,,POS.,,人口统计,,生命周期,数据爆炸但知识贫乏,,,,更大,更便宜的存储器,,,-- 磁盘密度以,Moore’s law,增长,,-- 存储器价格飞快,,下降更快,更便宜的信息处理器,,-,- 分析更多的数据,,-- 适应更多复杂的模型,,-- 引起更多查询技术,,-- 激起更强的可视化技术,,数据挖掘处理技术,,--,数理统计,,-- 人工智能,,-- 机器学习,支持数据挖掘技术的基础,,数据挖掘,的演化,,机器学习,,数据库中的知识发现,,数据挖掘,,10.1.2,数据挖掘的定义,SAS,研究所(199,10,):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。
Bhavani(1999):“,使用模式识别技术、统计和数学技术,在大量的数据,7,天连锁酒店,中发现有意义的新关系、模式和趋势的过程”Hand et al(2000):“,数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”数据挖掘的定义,技术角度的含义,,商业角度的含义,,与传统方法的区别,,数据挖掘的技术上的定义,数据挖掘(,Data Mining,),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题数据挖掘的商业角度的定义,按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法客户接触,,客户信息,客户数据库,统计分析与数据挖掘,,客户知识发现,,客户管理,知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息,从商业数据到商业智能,,数据挖掘与传统分析方法的区别,数据挖掘与传统的数据分析,(,如查询、报表、联机应用分析,),的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,.,。
数据挖掘所得到的信息应具有先未知,有效和可实用三个特征,.,,先前未知的信息是指,,该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系,,,10.1.3,数据挖掘的功能,,自动预测趋势和行为,,关联分析,,对象分类,,聚类分析,,概念描述,,偏差检测,,数据挖掘功能,—,预测,数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体数据挖掘功能,—,关联分析,数据关联是数据库中存在的一类重要的可被发现的知识若两个或多个变量的取值之间存在某种规律性,就称为关联关联可分为简单关联、时序关联、因果关联关联分析的目的是找出数据库中隐藏的关联网有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
关联是某种事物发生时其他事物会发生的这样一种联系例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述时序关联,是一种纵向的联系例如:今天银行调整利率,明天股市的变化数据挖掘功能,—,分类,按照分析对象的属性、特征,建立不同的组类来描述事物例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案数据挖掘功能,—,聚类,,数据库中的记录可被化分为一系列有意义的子集,即聚类聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件聚类技术主要包括传统的模式识别方法和数学分类学聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性数据挖掘功能,—,概念描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的,7,天连锁酒店,区别生成一个类的特征性描述只涉及该类对象中所有对象的共性生成区别性描述的方法很多,如决策树方法、遗传算法等数据挖掘功能,—,偏差检测,数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。
偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等偏差检测的基本方法是,寻找观测结果与参,,照值之间有意义的差别偏差检测,对分析对象的少数的、极端的特例的描述,揭示内在的原因例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险10.1.4,数据挖掘应用,,应用领域:银行、电信、保险、交通、零售等商业领域,,能解决的典型商业问题包括:,,数据库营销(,Database Marketing),,客户群体划分(,Customer,Segmentation&Classification,),,背景分析(,Profile Analysis),,交叉销售(,Cross-selling),,客户流失性分析(,Churn Analysis),,客户信用记分(,Credit Scoring),,欺诈发现(,Fraud Detection),,各行业电子商务网站,算,,法,,层,商,,业,,逻,,辑,,层,行,,业,,应,,用,,层,商业应用,商业模型,挖掘算法,CRM,,产品推荐,,客户细分,,客户流失,,客户利润,,客户响应,关联规则、序列模式、分类、聚集、神经元网络、偏差分析…,,WEB,挖掘,,,网站结构优化,,网页推荐,,商品推荐,,。
基因挖掘,,,基因表达路径分析,,基因表达相似性分析,,基因表达共发生分析,,银行,,电信,,零售,,保险,制药,,生物信息,,科学研究,,相关行业,数据挖掘的应用,,Debt<10% of Income,Debt=0%,Good,,Credit,,Risks,Bad,,Credit,,Risks,Good,,Credit,,Risks,Yes,Yes,Yes,NO,NO,NO,Income>$40K,Q,Q,Q,Q,I,I,1,2,3,4,5,6,factor 1,factor 2,factor n,神经网络,Neural Networks,聚类分析,Clustering,Open,,Accn’t,Add New,,Product,Decrease,,Usage,???,Time,序列分析,Sequence Analysis,决策树,Decision Trees,倾向性分析,客户保留,,客户生命周期管理,,目标市场,,价格弹性分析,客户细分,,市场细分,倾向性分析,,客户保留,,目标市场,,欺诈检测,关联分析,Association,市场组合分析,,,套装产品分析,,目录设计,,交叉销售,数据挖掘的应用,,10.1.5,数据挖掘未来研究方向,,发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像,SQL,语言一样走向形式化和标准化;,,寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;,,研究在网络环境下的数据挖掘技术(,WebMining,),,特别是在因特网上建立,DMKD,服务器,并且与数据库服务器配合,实现,WebMining,;,,加强对各种非结构化数据的开采(,DataMiningforAudio,&,Video,),,如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;,,处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。
为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件交互式发现和知识的维护更新10.2,数据挖掘的任务、技术、方法和实施过程,10.2.1,数据挖掘任务,,数据总结,,分类发现,,聚类分析,,关联规则发现,,10.2.2,数据挖掘技术,数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理,CBR,、,遗传算法、贝叶斯信念网络等神经网络方法,可细分为:前向神经网络(,BP,算法等)、自组织神经网络(自组织特征映射、竞争学习等)等数据库方法主要是基于可视化的多维数据分析或,OLAP,方法,另外还有面向属性的归纳方法●,数据挖掘技术的分类,——,回顾分析:注重解决过去和现在的问题,如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析,——,预测分析:在历史信息的基础上预测某些事件和行为,如:建立预测模型来描述客户的流失率,——,分类:根据某种标准将数据库记录分类到许多预先定义好的类别,如:信用卡公司将客户记录分为好、中、差三类,,分类可以产生规则:如果一个客户收入超过,5000,万元,年龄在,45,-,55,岁之间,居住在某地区,那么他的信用等级为好。
数据挖掘技术,,●,数据挖掘技术的分类,——,聚类:根据某些属性将数据库分割为一些子集和簇,,如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇,——,关联:通过考察记录来识别数据间的密切关系,关联关系常常表现为规则,常用于超市购物篮分析,,如:所有包含,A,和,B,的记录中有,60,%同时包含,C,——,时间序列:用于帮助识别与时间有关的模式,,如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析,数据挖掘的一般目的就是,检测、解释和预测,数据中定性的和/或定量的模式,数据挖掘技术,,●,数据挖掘方法学,——,模式,,数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率模式是数据驱动的,一般只反映数据本身,——,模型,,对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明模型的一般表现形式,数学方程式,描述各客户段的规则集,计算机表示方式,,模式可视化,数据挖掘技术,,●,数据挖掘方法学,——,取样,,根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型,,数据本身的处理过程需要验证,——,验证模型,,模型创建过程需要保证正确,,模型应用的验证,,在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。
数据挖掘技术,,人工神经网络,神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)神经网络常用于两类问题:分类和回归决策树,决策树把数据归入可能对一个目标变量有不同效果的规则组例如,我们希望发现可能会对直邮有反应的个人特点这些特点可以解释为一组规则决策树,假设您是一个销售一种新的银行服务的直邮计划研究的负责人为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售决策树建立,决策树中最上面的节点称为根节点,是整个决策树的开始本例把响应客户作为根节点可以看到所有收到直邮信件的人中有,10%,有响应然后根据记录字段的不同取值建立树的分支,,如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。
还可以在每个分支子集中重复建立下层结点和分支我们可以继续分组来发现最有可能响应的组群这一组群可以表示为一个规则,如,“,如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率,”,简单地说,有这些特点的组群中有45%可能会对直邮有响应决策树图,,决策树应用,决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具聚类分析,聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识通过聚类,数据库中的记录可被划分为一系列有意义的子集聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件聚类分析,簇(,Cluster):,一个数据对象的集合,,在同一个类中,对象之间具有相似性;,,不同类的对象之间是相异的聚类分析,,把一个给定的数据对象集合分成不同的簇;,,聚类是一种无监督分类法: 没有预先指定的类别;,,典型的应用,,作为一个独立的分析工具,用于了解数据的分布;,,作为其它算法的一个数据预处理步骤;,,,聚类分析应用,市场销售:,帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;,,土地使用:,在一个陆地观察数据库中标识那些土地使用相似的地区;,,保险:,对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;,,城市规划:,根据类型、价格、地理位置等来划分不同类型的住宅;,,地震研究:,根据地质断层的特点把已观察到的地震中心分成不同的类;,,聚类分析的评判,一个好的聚类方法要能产生高质量的聚类结果,——,簇,这些簇要具备以下两个特点:,,高的簇内相似性,,低的簇间相似性,,聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;,,聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;,,遗传算法,遗传算法,(,Genetic Algorithms),是,J.H.Holland,根据生物进化的模型提出的一种优化算法,。
虽然,GA,刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中模拟生物进化过程的算法,由繁殖,(,选择,),、交叉,(,重组,),、,,变异,(,突变,),三个基本算子组成遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术遗传算法,GA,的算法首先在解空间中取一群点,作为遗传开始的第一代每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(,Fitness function,),来衡量在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中好的数字串以高的概率被复制下来,劣的数字串被淘汰掉然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)最后对新的数字串的某一位进行变异这样就产生了新的一代按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解规则推导,规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系可视化技术,用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。
可视化技术面对的一个难题是高维数据的可视化信息可视化和数据挖掘是两个可互为补充利用的相关研究领域当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性由于对数据进行了可视化,用户愿意进行探索(,Explore),,在探索过程中有可能发现意外的知识其他技术,近邻算法,将数据集合中每一个记录进行分类的方法统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析●,经典方法,——,统计,,统计可以通过对类似下列问题的回答获得模式,○,在我的数据库中存在什么模式,○,某个事件发生的可能性是什么,○,那些模式是重要的模式,,统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录10.2.3,数据挖掘方法,,,●,经典方法,——,最近邻,,通过检测与预测对象最接近的对象的状况对预测对象进行预测,,原理:,,某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近;,,相互之间“接近”的对象会有相似的取值,,根据其中一个对象的取值,预测其最近邻对象的预测值,,商业,,应用:,文献检索,市场篮子分析,,应用,,评价:,,最近邻的数量,最近邻的距离,决定最近邻预测的可信度,数据挖掘方法,,●,现代方法,——,基础理论,有指导的学习,(Supervised Learning),归纳 概念 分类标准与模型 分类,有指导的学习的目的:建立分类模型,用模型确定新数据实例的类别,训练数据(,Training Data,),与检验集,(Test Set),用于创建模型的数据实例称为训练数据,用于检验模型的准确度的数据实例称为检验集,数据挖掘方法,,,有指导的学习,(Supervised Learning),患者代码,嗓子痛,发烧,淋巴肿,充血,头痛,诊断结果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感症,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感症,10,No,No,Yes,No,No,咽炎,8,Yes,No,No,Yes,Yes,敏感症,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,no,Yes,Yes,感冒,淋巴肿,数据挖掘方法,患者代码,嗓子痛,发烧,淋巴肿,充血,头痛,诊断结果,11,No,No,Yes,Yes,Yes,?,12,Yes,Yes,No,No,Yes,?,13,No,No,No,No,Yes,?,,,,,,,,,有指导的学习,(Supervised Learning),患者代码,嗓子痛,发烧,淋巴肿,充血,头痛,诊断结果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感症,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感症,10,No,No,Yes,No,No,咽炎,8,Yes,No,No,Yes,Yes,敏感症,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,No,Yes,Yes,感冒,淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,淋巴肿、发烧是有意义的属性,嗓子痛、充血、头痛是无意义的属性,数据挖掘方法,,,有指导的学习,(Supervised Learning),淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,患者代码,嗓子痛,发烧,淋巴肿,充血,头痛,诊断结果,11,No,No,Yes,Yes,Yes,?,12,Yes,Yes,No,No,Yes,?,13,No,No,No,No,Yes,?,,,,,,,,未知分类的数据实例(检验集),数据挖掘方法,,无指导的学习,(Unsupervised Learning),为没有预先定义分类标准的数据建立模型,客户,ID,客户类型,交易保证金帐户,交易方法,交易数/月,性别,年龄,嗜好,年收入,1005,联合,No,Online,12.5,F,30-39,网球,4,-,5.9,万,1013,委托保管,No,Broke,0.5,F,50-59,滑雪,8,-,9.9,万,1245,联合,No,Online,3.6,M,20-29,高尔夫,2,-,3.9,万,2110,个人,Yes,Broke,22.3,M,30-39,钓鱼,4,-,5.9,万,1001,个人,Yes,Online,5.0,M,40-49,高尔夫,6,-,10.9,万,ABC,投资公司客户表,数据挖掘方法,,无指导的学习,(Unsupervised Learning),区分在线投资者和经纪人投资者的特征是什么,一个新客户未开设交易保证金帐户,如何确定其将来是否会开设这种帐户,能建立一个预测新投资者月均交易数的模型吗,女性和男性投资者有什么不同的特征,交易方式,交易保证金帐户,月均交易数,性别,数 据 挖 掘 问 题,属 性,哪些属性相似性决定,ABC,公司的客户分组,属性值的哪些不同之处分隔了客户数据库,有指导的学习,无指导的学习,数据挖掘方法,,●,现代方法,——,决策树(,Decision Tree,),决策树是一种有指导学习的数据挖掘方法,决策树的组成,决策节点、分支、叶子,———,根节点,分支,———,叶子,Debt<10% of Income,Debt=0%,Good,,Credit,,Risks,Bad,,Credit,,Risks,Good,,Credit,,Risks,Yes,Yes,Yes,NO,NO,NO,Income>$40K,节点,,决策树的分支过程就是对数据进行分类的过程,利用几个变量(每个变量对应一个问题)来判断数据所属的类别。
在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同这一分割过程也就是数据的“纯化”过程数据挖掘方法,,决,,策,,树,,的,,算,,法,,步,,骤,○假设,T,为训练实例集,,○选择一个最能区别,T,中实例的属性,,○创建一个决策节点,它的值为所选择的属性,,○创建该节点的分支,每个分支代表所选属性的一个唯一值,,○使用分支的值,将数据实例分割为子类,,○对于步骤,5,所创建的各个子类:,,★如果子类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别,,☆分割中只包含一条数据实例,,☆分割中所有数据实例的属性都相同,,☆继续分割得到的改进不明显,,★如果子类不满足上述条件,则设,T’,为当前子类数据实例集合,返回步骤,2,数据挖掘方法,,决策树的属性选取,属性选取标准:,最大化反映数据差异,使树的层次和节点数最小,患者代码,嗓子痛,发烧,淋巴肿,充血,头痛,诊断结果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感症,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感症,10,No,No,Yes,No,No,咽炎,8,Yes,No,No,Yes,Yes,敏感症,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,no,Yes,Yes,感冒,淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,数据挖掘方法,,患者代码,嗓子痛,发烧,淋巴肿,充血,头痛,诊断结果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感症,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感症,10,No,No,Yes,No,No,咽炎,8,Yes,No,No,Yes,Yes,敏感症,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,no,Yes,Yes,感冒,淋巴肿,发 烧,No,No,Yes,Yes,敏感症,敏感症,咽炎,No,Yes,头 痛,淋巴肿,感冒,发 烧,淋巴肿,No,Yes,咽炎,No,Yes,数据挖掘方法,决策树的属性选取,属性选取标准:,最大化反映数据差异,使树的层次和节点数最小,,信用卡促销数据库,收入段,寿险促销,信用卡保险,性别,年龄,4-5,万,No,No,M,45,3-4,万,Yes,No,F,40,4-5,万,No,No,M,42,3-4,万,Yes,Yes,M,43,5-6,万,Yes,No,F,38,2-3,万,No,No,F,55,3-4,万,Yes,Yes,M,35,2-3,万,No,No,M,210,3-4,万,No,No,F,43,3-4,万,Yes,No,F,41,4-5,万,Yes,No,M,43,2-3,万,Yes,No,F,29,5-6,万,Yes,No,F,39,4-5,万,No,No,M,55,2-3,万,Yes,Yes,F,19,○选取收入段为根节点,○选取寿险促销为输出属性,○沿着每个分支有两个类,选取最频繁出现的类,,收入段,2Yes2No,4Yes1No,3No 1Yes,2Yes,2—3,万,3—4,万,4—5,万,5—6,万,○训练集分类的正确性为,11,/,15,=,103,%,数据挖掘方法,,——,决策树(,Decision Tree,):,例,信用卡促销数据库,○选取信用卡保险为根节点,○选取寿险促销为输出属性,○沿着每个分支有两个类,选取最频繁出现的类,信用卡保险,6Yes6No,3Yes 0No,No,Yes,○训练集分类的正确性为,9,/,15,=,60,%,数据挖掘方法,收入段,寿险促销,信用卡保险,性别,年龄,4-5,万,No,No,M,45,3-4,万,Yes,No,F,40,4-5,万,No,No,M,42,3-4,万,Yes,Yes,M,43,5-6,万,Yes,No,F,38,2-3,万,No,No,F,55,3-4,万,Yes,Yes,M,35,2-3,万,No,No,M,210,3-4,万,No,No,F,43,3-4,万,Yes,No,F,41,4-5,万,Yes,No,M,43,2-3,万,Yes,No,F,29,5-6,万,Yes,No,F,39,4-5,万,No,No,M,55,2-3,万,Yes,Yes,F,19,,——,决策树(,Decision Tree,):,例,信用卡促销数据库,○选取数值型属性年龄为根节点,○选取寿险促销为输出属性,○依照年龄排序,对照输出属性进行数据分割,选择数据分割点,年 龄,9Yes3No,0Yes 3No,≤,43,>,43,○以年龄≤,43,结合寿险促销=,Yes,,,训练集分类的正确性为,12,/,15,=,80,%,110,210,29,35,38,39,40,41,42,43,43,43,45,55,55,Y,N,Y,Y,Y,Y,Y,Y,N,Y,Y,N,N,N,N,数据挖掘方法,收入段,寿险促销,信用卡保险,性别,年龄,4-5,万,No,No,M,45,3-4,万,Yes,No,F,40,4-5,万,No,No,M,42,3-4,万,Yes,Yes,M,43,5-6,万,Yes,No,F,38,2-3,万,No,No,F,55,3-4,万,Yes,Yes,M,35,2-3,万,No,No,M,210,3-4,万,No,No,F,43,3-4,万,Yes,No,F,41,4-5,万,Yes,No,M,43,2-3,万,Yes,No,F,29,5-6,万,Yes,No,F,39,4-5,万,No,No,M,55,2-3,万,Yes,Yes,F,19,,——,决策树(,Decision Tree,):,例,信用卡促销数据库,年 龄,Yes,(,6,/,1,),No,(,2,/,1,),≤,43,>,43,性 别,F M,信用卡保险,Yes,(,2,/,0,),No,(,3,/,0,),No Yes,信用卡数据库的三节点决策树,○训练集分类的正确性为,13,/,15,=,810,%,数据挖掘方法,收入段,寿险促销,信用卡保险,性别,年龄,4-5,万,No,No,M,45,3-4,万,Yes,No,F,40,4-5,万,No,No,M,42,3-4,万,Yes,Yes,M,43,5-6,万,Yes,No,F,38,2-3,万,No,No,F,55,3-4,万,Yes,Yes,M,35,2-3,万,No,No,M,210,3-4,万,No,No,F,43,3-4,万,Yes,No,F,41,4-5,万,Yes,No,M,43,2-3,万,Yes,No,F,29,5-6,万,Yes,No,F,39,4-5,万,No,No,M,55,2-3,万,Yes,Yes,F,19,,——,决策树(,DecisionTree,):,例,信用卡促销数据库,收入段,寿险促销,信用卡保险,性别,年龄,4-5,万,No,No,M,45,3-4,万,Yes,No,F,40,4-5,万,No,No,M,42,3-4,万,Yes,Yes,M,43,5-6,万,Yes,No,F,38,2-3,万,No,No,F,55,3-4,万,Yes,Yes,M,35,2-3,万,No,No,M,210,3-4,万,No,No,F,43,3-4,万,Yes,No,F,41,4-5,万,Yes,No,M,43,2-3,万,Yes,No,F,29,5-6,万,Yes,No,F,39,4-5,万,No,No,M,55,2-3,万,Yes,Yes,F,19,信用卡保险,Yes,(,5,/,2,),No,(,4,/,1,),No,Yes,性 别,F M,Yes,(,3,/,0,),信用卡数据库的两节点决策树,○训练集分类的正确性为,12,/,15,=,80,%,数据挖掘方法,,——,决策树(,Decision Tree,):,例,信用卡促销数据库检验集,收入段,寿险促销,信用卡保险,性别,年龄,检验结果,4-5,万,No,No,M,42,正确,2-3,万,No,No,M,210,正确,3-4,万,No,No,M,43,正确,2-3,万,Yes,No,M,29,错误,年 龄,Yes,(,6,/,1,),No,(,2,/,1,),≤,43,>,43,性 别,F M,信用卡保险,Yes,(,2,/,0,),No,(,3,/,0,),No Yes,信用卡数据库的三节点决策树,数据挖掘方法,,●,现代方法,——K,-,平均值算法,,K-,平均值算法是一种简单而有效的无指导学习的统计聚类方法,将一组数据划分为不相关的簇,算 法 步 骤,○选择一个,K,值,用以确定簇的总数,○在数据集中任意选择,K,个,数据实例,作为初始的簇中心,○试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心,○试用每个簇中的数据实例,计算每个簇的新的平均值,○如果新的平均值等于次迭代的平均值,终止该过程。
否则,用新平均值作为簇中心并重复步骤,3,-,5,点,A(x1,y1),与点,B(x2,y2),之间的欧氏距离计算式为,数据挖掘方法,,K,-,平均值算法:例,K-,平均值输入属性,实例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,1.,选择,K=2,,,即将所有数据实例分为两个簇,2.,选择实例,1,作为第,1,个簇的中心,实例,3,作为第,2,个簇的中心,3.,计算各数据实例与,C1,、,C2,之间的欧氏距离,Dist(C1,-,1)=0.00 Dist(C2,-,1)=1.00 C1,,Dist(C1,-,2)=3.00 Dist(C2,-,2)=3.16 C1,,Dist(C1,-,3)=1.00 Dist(C2,-,3)=0.00 C2,,Dist(C1,-,4)=2.24 Dist(C2,-,4)=2.00 C2,,Dist(C1,-,5)=2.24 Dist(C2,-,5)=1.41 C2,,Dist(C1,-,6)=6.02 Dist(C2,-,6)=5.41 C2,4.,迭代结果得到以下两个簇,,簇,C1,包含实例,1,、,2,,簇,C2,包含实例,3,、,4,、,5,、,6,Y,X,数据挖掘方法,,——K,-,平均值算法:例,K-,平均值输入属性,实例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,5.,重新计算每个簇的中心,对于,C1,:,x=(1.0+1.0)/2=1.0,,y=(1.5+4.5)/2=3.0,,,对于,C2,:,x=(2.0+2.0+3.0+5.0)/4=3.0,,y=(1.5+3.5+2.5+6.0)/4=3.3105,,,因此,新的簇中心为,C1=(1.0,,,3.0),,C2=(3.0,,,3.3105),Y,X,6.,由于簇中心改变,进行第,2,次迭代,,K,-,平均值算法:例,K-,平均值输入属性,实例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,Dist(C1,-,1)=1.50 Dist(C2,-,1)=2.104 C1,,Dist(C1,-,2)=1.50 Dist(C2,-,2)=2.29 C1,,Dist(C1,-,3)=1.80 Dist(C2,-,3)=2.125 C1,,Dist(C1,-,4)=1.12 Dist(C2,-,4)=1.01 C2,,Dist(C1,-,5)=2.06 Dist(C2,-,5)=0.8105 C2,,Dist(C1,-,6)=5.00 Dist(C2,-,6)=3.30 C2,第,2,次迭代的结果导致了簇的变化:,,C1,包含实例,1,、,2,和,3,,,C2,包含,4,、,5,和,6,Y,X,,K,-,平均值算法:例,K-,平均值输入属性,实例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,10.,重新计算每个簇的中心,对于,C1,:,x=(1.0+1.0,+,2.0)/3=1.33,,y=(1.5+4.5,+,1.5)/3=2.50,,,对于,C2,:,x=(2.0+3.0+5.0)/3=3.33,,y=(3.5+2.5+6.0)/3=4.00,,,因此,新的簇中心为,C1=(1.33,,,2.50),,C2=(3.33,,,4.00),8.,由于簇中心改变,继续进行第,3,次迭代,Y,X,,K,-,平均值算法:例,数据实例与它们所对应的簇中心之间的误差平方和最小,K,-,平均值算法的几个应用,K,-,平均值算法的最优聚类标准,输出结果,簇,中心,簇点,均方误差,1,(2.610, 4.610),,(2.00, 1.83),2, 4, 6,,1, 3, 5,14.50,2,(1.5, 1.5),,(2.105, 4.125),1, 3,,2, 4, 5, 6,15.94,3,(1.8, 2.10),,(5, 6),1, 2, 3, 4, 5,,6,9.60,Y,X,Y,X,Y,X,,●,现代方法,——,关联规则(,Association Rules,),关联规则的表现形式,,关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。
如果怎么样、怎么样、怎么样,那么就会怎么样”,,,关联规则的构成,前件,——,“,如果怎么样、怎么样、怎么样”,,后件,——,“,那么就怎么样”,,,——,如果买了西装,就会买领带,,——,如果买精显彩电,,,就会买家庭影院系统,,规则的构成,如果怎么样、怎么样、怎么样,就会怎么样,前件,激发条件,后件,结果,规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现,关联规则(,Association Rules,),,规则的置信度和支持度,关联规则(,Association Rules,),规则的,置信度,又称为规则的,正确率,,是指在前提出现的情况下,后件出现的概率,规则的,支持度,又称为规则的,覆盖率,,是指包含规则出现的属性值的交易占所有交易的百分比,例:如果客户买牛奶,那么他们也会买面包,置信度:在,10000,次交易中客户购买了牛奶,而且其中的,5000,个交易也同时购买了面包,则上述规则的置信度为,5000,/,10000,=,50,%,,支持度:在超市一个月的客户交易中,共有,600000,次交易,其中购买牛奶的交易为,60000,次,支持度为,60000,/,600000,=,10,%,,,规则的生成,——,关联规则(,Association Rules,),决策树方法,规则,1,:如果客户参加了信用卡保险,那么他就会参加寿险促销(置信度=,3,/,3,=,100,%,支持度=,3,/,15,=,20,%),规则,2,:如果一个男性客户没有参加信用卡保险,那么他也不会参加寿险 促销(置信度=,4,/,5,=,80,%,支持度=,5,/,15,=,33,%),,,,规则,3,:如果一个女性客户没有参加信用卡保险,那么她可能会参加寿险促销(置信度=,5,/,10,=,101,%,支持度=,10,/,15,=,410,%),,规则,4,:如果是一个女性客户,那么她可能会参加寿险促销(置信度=,6,/,8,=,105,%,支持度=,8,/,15,=,53,%),信用卡保险,Yes,(,5,/,2,),No,(,4,/,1,),No,Yes,性 别,F M,Yes,(,3,/,0,),,规则的生成,●,现代方法,——,关联规则(,Association Rules,),最近邻方法,规则:如果一个客户处于,●,的状况,那么他可能是一个逃款者,关联规则可以使用传统的方法生成,但适当提供的属性很多时,因为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。
规则的生成,●,现代方法,——,关联规则(,Association Rules,),,apriori,方法,,apriori,方法步骤:,,1.,设置最小的属性-值支持度要求,,apriori,方法是通过生成条目集,按照一定的准则要求从中选择规则的方法条目集是指符合一定支持度要求的“属性-值”的组合,,2.,生成条目集,,3.,使用生成的条目集来创建规则,,规则的生成,●,现代方法,——,关联规则(,Association Rules,),杂志促销,手表促销,寿险促销,信用卡保险,性别,Y,N,N,N,M,Y,Y,Y,N,F,N,N,N,N,M,Y,Y,Y,Y,M,Y,N,Y,N,F,N,N,N,N,F,Y,N,Y,Y,M,N,Y,N,N,M,Y,N,N,N,M,Y,Y,Y,N,M,,apriori,方法,:,例,1.,设置最小的属性-值支持度要求(>,30,%),,2.,生成条目集,单项集合,条目数,杂志促销=,Y,10,手表促销=,Y,4,手表促销=,N,6,寿险促销=,Y,5,寿险促销=,N,5,信用卡保险=,N,8,性别=,M,6,性别=,F,4,单项条目集合,,规则的生成,●,现代方法,——,关联规则(,Association Rules,),杂志促销,手表促销,寿险促销,信用卡保险,性别,Y,N,N,N,M,Y,Y,Y,N,F,N,N,N,N,M,Y,Y,Y,Y,M,Y,N,Y,N,F,N,N,N,N,F,Y,N,Y,Y,M,N,Y,N,N,M,Y,N,N,N,M,Y,Y,Y,N,M,,apriori,方法,:,例,双项条目集合,双项集合,条目数,杂志促销=,Y,&,手表促销=,N,4,杂志促销=,Y,&,寿险促销=,Y,5,杂志促销=,Y,&,信用卡保险=,N,5,杂志促销=,Y,&,性别=,M,4,手表促销=,N,&,寿险促销=,N,4,手表促销=,N,&,信用卡保险=,N,5,手表促销=,N,&,性别=,M,4,寿险促销=,N,&,信用卡保险=,N,5,寿险促销=,N,&,性别=,M,4,新英卡保险=,N,&,性别=,M,4,信用卡保险=,N,&,性别=,F,4,,规则的生成,●,现代方法,——,关联规则(,Association Rules,),杂志促销,手表促销,寿险促销,信用卡保险,性别,Y,N,N,N,M,Y,Y,Y,N,F,N,N,N,N,M,Y,Y,Y,Y,M,Y,N,Y,N,F,N,N,N,N,F,Y,N,Y,Y,M,N,Y,N,N,M,Y,N,N,N,M,Y,Y,Y,N,M,,apriori,方法,:,例,确定最小置信度(如>,50,%),利用双项条目集合生成规则,3.,使用生成的条目集来创建规则,规则,1,:如果杂志促销=,Y,,,那么寿险促销=,Y,(,5,/,10,),,,置信度=,5,/,10,=,101,%,支持度=,10,/,10,=,100,%,规则,2,:如果寿险促销=,Y,,,那么杂志促销=,Y,(,5,/,5,),,,置信度=,5,/,5,=,100,%,支持度=,5,/,10,=,50,%,,规则的生成,——,关联规则(,Association Rules,),,市场篮子分析就是一种关联规则的表现,,时间序列分析是一种反映客户行为在时间上的关联性的关联规则,,,,,,,,,,,规则的应用,——,关联规则(,Association Rules,),——,以前件为目标,——,归纳所有前件一样的规则,——,分析后件的营销效果,——,设计促销方案(完善前件),——,例,——,收集所有前件为文具、复读机的规则,分析这些商品打折是否促进其他高利润商品的销售,从而调整商品结构、设计促销方案,,规则的应用,——,关联规则(,Association Rules,),——,以后件为目标,——,归纳所有后件一样的规则,——,分析什么因素与后件有关或对后件有影响,——,设计前件促成后件,——,例,——,收集到所有后件为西装的规则,可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关,从而可以考虑将这些因素集合在一起而产生促销效果。
规则的应用,——,关联规则(,Association Rules,),,置信度低,置信度高,支持度高,,,支持度低,,,规则的置信度和支持度,规则很少是正确的,但可以经常使用,规则很少是正确的,而且很少被使用,规则多数情况下是正确,但很少被使用,规则多数情况下是正确的,而且可以经常使用,——,以置信度或支持度为目标,,10.2.4,数据挖掘的流程,,,数据挖掘的流程,确定业务对象,,数据准备,,数据挖掘,,结果分析和知识同化,,数据挖掘的流程-确定业务对象,清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的数据挖掘的流程-数据准备,数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型数据的转换:将数据转换成一个分析模型,.,这个分析模型是针对挖掘算法建立的,.,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键数据挖掘的流程-数据挖掘,对所得到的经过转换的数据进行挖掘,.,除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
数据挖掘的流程-分析和同化,结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去数据挖掘过程工作量,,在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成其中60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.,,数据挖掘过程工作量,,,数据挖掘需要的人员,,数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据10.3,数据挖掘,。