文档详情

第九章-数据挖掘和数据可视化

陈**
实名认证
店铺
2024-11-28
PPT
505KB
约45页
第九章-数据挖掘和数据可视化_第1页
1/45
第九章-数据挖掘和数据可视化_第2页
2/45
第九章-数据挖掘和数据可视化_第3页
3/45

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,决策支持系统,决策支持系统,第九章,数据挖掘与数据可视化,本章学习目的与要求,理解数据挖掘的基本概念;,掌握数据挖掘常用的算法;,理解数据可视化的基本概念;,内容提示,第一节 数据挖掘,第二节 数据可视化,第一节 数据挖掘,第一节 数据挖掘,数据挖掘的概念;,数据挖掘的任务一)数据挖掘概念,-,前言,信息产业的发展引发了数据的大量聚集,如,一个中等规模企业每天要产生,100MB,以上来自各生产经营等多方面的商业数据;在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达,34TB,之多,据估计,,1993,年全球数据存贮容量约为二千,TB,,到,2000,年增加到三百万,TB,,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间”和“数据过剩”的巨大压力前言,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动,;,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义从数据到知识到智慧,需要经过分析加工处理精炼的过程。

前言,数据与知识间的关系,数据到知识的转变,数据仓库,的出现,为更深入对数据进行分析提供了条件,,它不同于管理日常工作数据的数据库,它更便于分析针对特定主题的集成化的、时变的的数据,且这些数据一旦存入就不再发生变化,;,OLAP,是数据分析手段的一大进步,以往的分析工具所得到的报告结果只能回答“什么”(,WHAT,),而,OLAP,的分析结果能回答“为什么”(,WHY,)数据到知识的转变,但,O,LAP,是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,由用户指导的信息分析与知识发现过程,;,由于数据仓库,中的数据来,源于多个数据源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时准确地做出科学的经营决策,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘,隐藏在数据中的各类知识,数据挖掘的产生,九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知识发现软件工具,从而形成了近年来软件开发市场的热点目前数据挖掘工具已开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要里程碑,。

数据挖掘的产生,数据到知识的演化过程示意图,(一)数据挖掘的概念,数据挖掘,(,Data Mining,DM,):又名数据库中的,知识发现,(,Knowledge discovery from database,简称,KDD,),,它是一个从大量数据中抽取挖掘出,未知的、有价值,的模式或规律等知识的复杂过程,简单地讲就是从大量数据中挖掘或抽取出知识数据挖掘的步骤,数据挖掘过程示意图,数据挖掘的过程,整个知识挖掘过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤整个知识挖掘的主要步骤有:,(,1,),数据清洗,:清除数据噪声和与挖掘主题明显无关的数据;,(,2,),数据集成,:将来自多数据源中的相关数据组合到一起;,(,3,),数据转换,:将数据转换为易于进行数据挖掘的数据存储形式数据挖掘的过程,(,4,),数据挖掘,:利用智能方法挖掘数据模式或规律知识;,(,5,),模式评估,:根据一定评估标准从挖掘结果筛选出有意义的模式知识;,(,6,),知识表示,:,利用可视化和知识表达技术,向用户展示所挖掘出的相关知识,二)数据挖掘的任务,利用数据挖掘技术可以帮助获得决策所需的多种知识在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要,。

二)数据挖掘的任务,数据挖掘功能以及所能够挖掘的知识类型说明描述如下:,(,1,)关联分析;,(,2,)分类与预测;,(,3,)聚类分析;,(,4,)异类分析;,(,5,)演化分析,1,)关联分析,关联分析(,association analysis,)就是从给定的数据集发现频繁出现的项集模式知识(又称为关联规则,,association rules,)关联分析广泛用于市场营销、事务分析等应用领域通常关联规则具有:,X Y,形式,表示“数据库中的满足,X,中条件的记录也一定满足,Y,中的条件”,关联分析示例,一个数据挖掘系统可以从一个商场的销售,(,交易事务处理,),记录数据中,挖掘出如下所示的关联规则:,Age(X,”20-29”)income(X,“20K-30K”)buys(X,”MP3”),support=2%,confidence=60%,上述关联规则表示:该商场有,2%,的顾客年龄在,20,岁到,29,岁且收入在,2,万到,3,万之间,这群顾客中有,60%,的人购买了,MP3,,或者说这群顾客购买,MP3,的概率为,60%,2,)分类与预测,分类(,classification,)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(,class,),即将未知事例映射到某种离散类别之一。

分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得2,)分类与预测,分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于,A,级、,B,级还是,C,级但在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测(,prediction,)尽管预测既包括连续数值的预测,也包括有限离散值的分类;但一般还是使用,预测来表示对连续数值的预测,;而使用,分类来表示对有限离散值的预测,分类与预测示例,表中给出打高尔夫球与天气的关系,要求根据条件属性的不同取值来决定是否可以打高尔夫球ID,Outlook,Temperature,Humidity,Windy,Class,1,Overcast,Hot,High,Not,N,2,Overcast,Hot,High,Very,N,3,Overcast,Hot,High,Medium,N,38,Sunny,Hot,High,Medium,P,39,Rain,Mild,High,Not,N,40,Rain,Mild,High,Medium,N,分类与预测示例,分类结果(决策树),(,3,)聚类分析,聚类分析(,clustering analysis,)与分类预测方法明显不同之处在于:,分类所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;,而聚类分析所处理的数据均是无类别归属。

因此聚类分析属于无教师监督学习方法聚类原则:类内距离最小,类间距离最大4,)异类分析,一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类(,outlier,)对异类数据的分析处理通常就称为异类挖掘4,)异类分析,之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其排除在数据挖掘的分析处理范围之内但在一些应用场合,如各种商业欺诈行为的自动检测,小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值例如:可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为(异类数)5,)演化分析,数据演化分析(,evolution analysis,)就是对随时间变化的数据对象的变化规律和趋势进行建模描述这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关数据分析(这其中又包括:时序数据分析、序列或周期模式匹配,以及基于相似性的数据分析,),演化分析示例,例如:利用演化分析方法可对股市主要股票交易数据(时序数据)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律,这种规律或许能够帮助预测股票市场上的股票价格,从而有效提高投资回报率。

第二节 数据可视化,第二节 数据可视化,数据可视化的概念;,数据可视化的意义一)数据可视化的概念,数据可视化是关于,数据,之视觉表现形式的研究,数据可视化是当前的一个热点问题,特别在交互设计领域,如何把数据,特别是大规模的数据进行可视化就成为了一个非常热门的问题,一)数据可视化的概念,可视化,(,Visualization,):利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术,数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面,通过数据可视化技术,可以发现大量金融、通信和商业数据中隐含的规律,从而为决策提供依据一)数据可视化的概念,(二)数据可视化的意义,数据可视化为我们提供了一条清晰有效地传达与沟通信息的渠道:,(,1,)交互性用户可以方便地以交互的方式管理和开发数据;,(,2,)多维性可以看到表示对象或事件的数据的多个属性或变量,而数据可以按其每一维的值,将其分类、排序、组合和显示;,(,3,)可视性。

数据可以用图象、曲线、二维图形、三维体和动画来显示,并可对其模式和相互关系进行可视化分析数据可视化的应用,(,1,)医学:,长期以来人类就有认识自身内部结构的愿望直到,70,年代计算机断层扫描(,CT,)和核磁共振图像(,MRI,)技术和可视化技术的出现,才使获取人体内部数据的愿望成为现实可视化人体计划(,VHP,)数据集的出现,标志计算机三维重构图像和虚拟现实技术进入了医学领域,从而大大促进了医学的发展和普及人类大脑的三维图像,数据可视化的应用,(,2,)油气勘探:,目前石油工业面临的一个严峻问题是:如何寻找规模小而埋藏深的油气田油气勘探的主要方式,是通过天然地震波或人工爆炸产生的声波在地质构造中的传播,来重构大范围内的地质构造,并通过测井数据了解局部区域的地层结构,探明油藏气藏位置及其分布,估计蕴藏量及其勘探价值由于地震数据及测井数据的数据量极其庞大,而且分布不均匀,因而无法根据纸面上的数据作出分析利用可视化技术可以从大量的地质勘探数据或测井数据中,构造出感兴趣的等值面、等值线,并显示其范围及走向,并用不同颜色显示出多种参数及其 相互关系,从而使专业人员能对原始数据作出正确解释,得到矿藏是否存在、矿藏位置及储量大小等重要信息。

数据可视化的应用,油藏三维图,数据可视化的应用,(,3,)气象预报:,气象预报的准确性依赖于对大量数据的计算和对计算结果的分析一方面,科学计算可视化可将大量的数据转换为图像,在屏幕上显示出某一时刻的等压面、等温面、旋涡、云层的位置及运动、暴雨区的位置及其强度、风力的大小及方向等,使预报人员能对未来的天气作出准确的分析和预测另一方面,根据全球的气象监测数据和计算结果,可将不同时期全球的气温分布、气压分布、雨量分布及风力风向等以图像形式表示出来,从而对全球的气象情况及其变化趋势进行研究和预测天气预报图,包括云状,液态水和风,数据可视化的应用,(,4,)工程:,计算机辅助工程(,CAE,)包括计算机辅助设计(,CAD,)、计算机辅助制造(,CAM,)和计算机辅助运行等多项内容可视化技术有助于整个工程过程一体化和流线化,并能使工程的领导和技术人员看到和了解过程中参数变化对整体的动态影响,从而达到缩短研制周期、节省工程全寿命费用的目的美国航空航天局阿姆斯研究中心的虚拟风洞,思考与练习,1,)数据挖掘技术的概念?,2,)数据可视化技术的概。

下载提示
相关文档
正为您匹配相似的精品文档