单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第12章数据仓库与数据挖掘,基本概念,数据仓库定义,数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合数据仓库系统的分类,Web数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等OLAP定义,OLAP是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户面向决策主题的,数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图集成的,构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性时变的,数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素非易失的,数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问以读为主的,数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新数据仓库基本特性,数据仓库项目流程管理及系统性能管理和监控,OLTP,数据源,数据仓库,数据集市,数据采集及整合,数据的映射规则、模型,。
元数据管理),数据展现及决策,生产,财务,结算,外部,地区,分析,总量,分析,市场,分析,E,T,L,数据分析、DM,终端用户,终端用户,数据仓库体系结构,数据仓库的结构,早期细节级,当前细节级,轻度综合级,数据集市,高度综合级,元数据,操作型转换,数据仓库中的几个重要概念,ETL,ETL(Extract/Transformation/Load),用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去元数据,关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据同时元数据还包含关于数据含义的商业信息Data Mart,数据集市-小型的,面向部门或工作组级数据仓库,Operation Data Store,操作数据存储,ODS,是能支持企业日常的全局应用的数据集合,是不同于,DB,的一种新的数据环境,是,DW,扩展后得到的一个混合形式四个基本特点:面向主题的(,Subject-Oriented)、,集成的、可变的、当前或接近当前的粒度,数据仓库的数据单元中保存数据的细化或综合程度的级别细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
分割,结构相同的数据可以被分成多个数据物理单元任何给定的数据单元属于且仅属于一个分割数据仓库中的几个重要概念,(续),操作数据库与数据仓库的区别,操作数据库系统的主要任务是联机事务处理OLTP,数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP,基本数据模式,星型模式,日期维表,TimeID,Day,Month,Year,销售事实表,TimeID,ProductID,RegionID,Sales,Quantity,产品维表,ProductID,ProductName,ClassID,ClassName,CategoryID,CategoryName,地区维表,RegionD,City,Province,Country,基本数据模式(续1),雪花模式,销售事实表,TimeID,ProductID,RegionID,Sales,Quantity,日期维表,TimeID,day,Month,产品维表,ProductID,ProductName,ClassID,ClassName,地区维表,RegionID,City,Province,月表,Month,Year,类别表,ClassID,Category ID,CategoryName,省份表,Province,Country,基本数据模式(续2),多维模型,Cube,(,D,1,D,2,Dn,M,1,M,2,M,m,),数据仓库的主要应用,信息处理,支持查询和基本的统计分析,并使用表或图进行报告。
分析处理,支持基本的OLAP操作,在汇总的和细节的历史数据上操作数据挖掘,支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果.,OLAP发展背景,60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAPOLTP数据 OLAP数据,原始数据 导出数据,细节性数据 综合性和提炼性数据,当前值数据 历史数据,可更新 不可更新,但周期性刷新,一次处理的数据量小 一次处理的数据量大,面向应用,事务驱动 面向分析,分析驱动,面向操作人员,支持日常操作 面向决策人员,支持管理需要,什么是OLAP?,定义1:OLAP(联机分析处理)是针对特定问题的联机数据访问和分析通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
定义2:OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术OLAP委员会的定义),OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合OLAP相关基本概念,1)维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)2)维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)3)维的成员:维的一个取值是数据项在某维中位置的描述某年某月某日”是在时间维上位置的描述),4)多维数组:维和变量的组合表示一个多维数组可以表示为:(维1,维2,维n,变量)时间,地区,产品,销售额),5)数据单元(单元格):多维数组的取值2000年1月,上海,笔记本电脑,$100000,),OLAP特性,(1)快速性:,用户对OLAP的快速反应能力有很高的要求系统应能在5秒内对用户的大部分分析要求做出反应。
2)可分析性:,OLAP系统应能处理与应用有关的任何逻辑分析和统计分析3)多维性:,多维性是OLAP的关键属性系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持4)信息性:,不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息OLAP基本操作,上卷操作:通过维层次,在数据立方体上进行聚集下钻操作:是上卷操作的逆操作,由不太详细的数据到更详细的数据切片和切块:切片在给定的数据立方体的一个维上进行选择,切块则是在两个或两个以上的维进行选择旋转操作:是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据OLTP和OLAP的区别,用户和系统的面向性:,OLTP是面向顾客的,用于事务和查询处理;,OLAP是面向市场的,用于数据分析数据内容:,OLTP系统管理当前数据;,OLAP系统管理大量历史数据,提供汇总和聚集机制数据库设计:,OLTP采用实体-联系ER模型和面向应用的数据库设计;,OLAP采用星型或雪花模型和面向主题的数据库设计视图:,OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据;,OLAP则相反,不仅关注本企业或组织内部的当前数据,而且更多地涉及到历史数据和其他组织的数据。
访问模式,:,OLTP系统的访问主要由短的原子事务组成,这种系统需要并行和恢复机制OLAP系统的访问大部分是只读操作OLTP和OLAP的区别(续),OLAP,的分析方法(一)切片、切块,OLAP,的分析方法(二)钻取,按时间维向下钻取,按时间维向上钻取,60,OLAP,的分析方法(三)旋转,OLAP服务器类型,关系OLAP(,ROLAP,)模型,使用关系或扩充关系DBMS存放并管理数据仓库多维OLAP(MOLAP)服务器,这些服务器通过基于数组的多维存储,支持数组的多维视图混合OLAP(HOLAP)服务器,结合ROLAP和MOLAP技术,得宜于ROLAP的可伸缩性和MOLAP的快速计算数据组织形式,RDB,数据组织,MDDB,数据组织 关系表中综合数据的存放,多维数据库中综合数据的存放,产品名称,地区,销售量,冰箱,东北,50,冰箱,西北,60,冰箱,华北,100,彩电,东北,40,彩电,西北,70,彩电,华北,80,空调,东北,90,空调,西北,120,空调,华北,140,东北,西北,华北,冰箱,50,60,100,彩电,40,70,80,空调,90,120,140,产品名称,地区,销售量,冰箱,东北,50,冰箱,西北,60,冰箱,华北,100,冰箱,总和,210,彩电,东北,40,彩电,西北,70,彩电,华北,80,彩电,总和,190,空调,东北,90,空调,西北,120,空调,华北,140,空调,总和,350,总和,东北,180,总和,西北,250,总和,华北,320,总和,总和,750,东北,西北,华北,总和,冰箱,50,60,100,210,彩电,40,70,80,190,空调,90,120,140,350,总和,180,250,320,750,ROLAP体系结构,SQL,Result,Set,Info.,Request,Result,Set,Database Server,R,DBMS,Front-end Tool,ROALP Architecture,ROLAP Server,Metadata,Request,Processing,MOLAP体系结构,SQL,Result,Set,Info.,Request,Result,Set,Load,Database Server,RDBMS,Front-end Tool,MOALP Architecture,MOLAP Server,Metadata,Request,Processing,HOLAP体系结构(续),Result Set,SQL Query,SQL,Result,Set,Info.,Request,Result,Set,Load,Database Server,RDBMS,Front-end Tool,Hybrid Architecture,MOLAP Server,用户图形界面API,数据库,数据仓库,数据库,元数据,OLAM,引擎,OLAP,引擎,MDDB,数据方API,数据库API,基于约束的数据挖掘,数据清理,过滤,挖掘结果,数据集成,数据过滤,数据集成,第一层,数据存储,第二层,多维数据库,第三层,OLAP/OLAM,第四层,用户界面,一个集成的OLAM和OLAP结构,OLAP的Web表现方式,静态方法,静态HTML报表,动态方法,通过HTML模板及元数据动态生成报表,改进方法,使用Java或ActiveX,CGI,API,HTML,Java Scrip,ActiveX,客户浏览器,Web服务器应用,OLAP Server,基于Web的OLAP结构,Database Server,。