文档详情

数据仓库与数据挖掘的OLAP技术详述

ui****22
实名认证
店铺
2024-12-11
PPTX
914.72KB
约64页
数据仓库与数据挖掘的OLAP技术详述_第1页
1/64
数据仓库与数据挖掘的OLAP技术详述_第2页
2/64
数据仓库与数据挖掘的OLAP技术详述_第3页
3/64

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,,*,*,,数据仓库和数据挖掘的OLAP技术,,,数据仓库-,数,数据挖掘的,有,有效平台,数据仓库中,的,的数据清理,和,和数据集成,,,,是数据挖,掘,掘的重要数,据,据预处理步,骤,骤,数据仓库提,供,供OLAP,工,工具,可用,于,于不同粒度,的,的数据分析,很多数据挖,掘,掘功能都可,以,以和OLAP操作集成,,,,以提供不,同,同概念层上,的,的知识发现,分类,预测,关联,聚集,,,什么是数据,仓,仓库?,数据仓库的,定,定义很多,,但,但却很难有,一,一种严格的,定,定义,它是一个提,供,供决策支持,功,功能的数据,库,库,它与公,司,司的操作数,据,据库分开维,护,护为统一的历,史,史数据分析,提,提供坚实的,平,平台,对信,息,息处理提供,支,支持,数据仓库区,别,别于其他数,据,据存储系统,“数据仓库,是,是一个面向,主,主题的、集,成,成的、随时,间,间而变化的,、,、不容易丢,失,失的数据集,合,合,支持管,理,理部门的决,策,策过程.”,—,—W. H. Inmon,,,数据仓库关,键,键特征一—,—,—面向主题,面向主题,,是,是数据仓库,显,显著区别于,关,关系数据库,系,系统的一个,特,特征,围绕一些主,题,题,如顾客,、,、供应商、,产,产品等,关注决策者,的,的数据建模,与,与分析,而,不,不是集中于,组,组织机构的,日,日常操作和,事,事务处理。

排除对于决,策,策无用的数,据,据,提供特,定,定主题的简,明,明视图数据仓库关,键,键特征二—,—,—数据集成,一个数据仓,库,库是通过集,成,成多个异种,数,数据源来构,造,造的关系数据库,,,,一般文件,,,,,联机事务处,理,理记录,使用数据清,理,理和数据集,成,成技术确保命名约,定,定、编码结,构,构、属性度,量,量等的一致,性,性当数据被移,到,到数据仓库,时,时,它们要,经,经过转化数据仓库关,键,键特征三—,—,—随时间而,变,变化,数据仓库是从,历,历史的角度提,供,供信息,数据仓库的时,间,间范围比操作,数,数据库系统要,长,长的多操作数据库系,统,统: 主要保,存,存当前数据数据仓库:从,历,历史的角度提,供,供信息(比如,过,过去 5-10 年),数据仓库中的,每,每一个关键结,构,构都隐式或显,式,式地包含时间,元,元素,而操作,数,数据库中的关,键,键结构可能就,不,不包括时间元,素,素数据仓库关键,特,特征四——数,据,据不易丢失,尽管数据仓库,中,中的数据来自,于,于操作数据库,,,,但他们却是,在,在物理上分离,保,保存的操作数据库的,更,更新操作不会,出,出现在数据仓,库,库环境下。

不需要事务处,理,理,恢复,和,并,并发控制等机,制,制,只需要两种数,据,据访问:,数据的初始转,载,载和数据访问,(,(读操作),,,,数据仓库的构,建,建与使用,数据仓库的构,建,建包括一系列,的,的数据预处理,过,过程,数据清理,数据集成,数据变换,数据仓库的使,用,用热点是商业,决,决策行为,例,如,如:,增加客户聚焦,产品重定位,寻找获利点,客户关系管理,,,数据仓库与异,种,种数据库集成,异种数据库的,集,集成方法,传统的异种数,据,据库集成:(,查询驱动,),在多个异种数,据,据库上建立包,装,装程序(wrappers,),)和中介程序,(,(mediators ),查询驱动方法,—,——当从客户,端,端传过来一个,查,查询时,首先,使,使用元数据字,典,典将查询转换,成,成相应异种数,据,据库上的查询,;,;然后,将这,些,些查询映射和,发,发送到局部查,询,询处理器,数据仓库:,(,(,更新驱动,),将来自多个异,种,种源的信息预,先,先集成,并存,储,储在数据仓库,中,中,供直接查,询,询和分析,,,查询驱动方法,和,和更新驱动方,法,法的比较,查询驱动的方,法,法,需要负责的信,息,息过滤和集成,处,处理,与局部数据源,上,上的处理竞争,资,资源,对于频繁的查,询,询,尤其是涉,及,及聚集(汇总,),)操作的查询,,,,开销很大(,决,决策支持中常,见,见的查询形式,),),更新驱动的方,法,法(带来高性,能,能),数据经预处理,后,后单独存储,,对,对聚集操作提,供,供良好支持,不影响局部数,据,据源上的处理,集成历史信息,,,,支持负责的,多,多维查询,,,数据仓库与操,作,作数据库系统,操作数据库系,统,统的主要任务,是,是联机事务处,理,理OLTP,日常操作:,购,购买,库存,,银,银行,制造,,工,工资,注册,,记,记帐等,数据仓库的主,要,要任务是联机,分,分析处理OLAP,数据分析和决,策,策支持,支持,以,以不同的形式,显,显示数据以满,足,足不同的用户,需,需要,,,OLAP VS. OLTP (1),用户和系统的,面,面向性,面向顾客(事,务,务) VS.,面,面向市场(,分,分析),数据内容,当前的、详细,的,的数据 VS. 历史的、,汇,汇总的数据,数据库设计,实体-联系模,型,型(ER)和,面,面向应用的数,据,据库设计 VS. 星型/,雪,雪花模型和面,向,向主题的数据,库,库设计,,,OLAP VS. OLTP (2),数据视图,当前的、企业,内,内部的数据VS. 经过,演,演化的、集成,的,的数据,访问模式,事务操作 VS. 只读查,询,询(但很多是,复,复杂的查询),任务单位,简短的事务VS. 复杂,的,的查询,访问数据量,数十个 VS. 数百万个,,,OLAP VS. OLTP (3),用户数,数千个 VS. 数百个,数据库规模,100M-数GB VS.100GB-数TB,设计优先性,高性能、高可,用,用性 VS.,高,高灵活性、,端,端点用户自治,度量,事务吞吐量VS. 查询,吞,吞吐量、响应,时,时间,更多的区别见,教,教科书P28,,,,表2-1,,,为什么需要一,个,个分离的数据,仓,仓库?,提高两个系统,的,的性能,DBMS是,为,为OLTP,而,而设计的:,存,存储方式,,索,索引, 并,发,发控制,,恢,恢复,数据仓库是,为,为OLAP,而,而设计:复,杂,杂的 OLAP查询,,多,多维视图,,,,汇总,不同的功能,和,和不同的数,据,据:,历史数据:,决,决策支持,需,需要历史数,据,据,而这些,数,数据在操作,数,数据库中一,般,般不会去维,护,护,数据汇总:,决,决策支持需,要,要将来自异,种,种源的数据,统,统一(如聚,集,集和汇总),数据质量:,不,不同的源,使,使用不一致,的,的数据表示,、,、编码和格,式,式,对这些,数,数据进行有,效,效的分析需,要,要将他们转,化,化后进行集,成,成,,,多维数据模,型,型 (1),数据仓库和OLAP工,具,具基于多维,数,数据模型,在多维数据,模,模型中,数,据,据以数据立,方,方体(data cube)的形,式,式存在,数据立方体,允许以多维,数,数据建模和,观,观察。

它由,维,和,事实,定义,维,是关于一个,组,组织想要记,录,录的视角或,观,观点每个,维,维都有一个,表,表与之相关,联,联,称为,维表,多维数据模,型,型围绕中心,主,主题组织,,该,该主题用,事实表,表示,事实表,包括事实的,名,名称或度量,以,以及每个相,关,关维表的关,键,键字,事实,指的是一些,数,数字度量,,,多维数据模,型,型 (2),—,——示例,,,time_key,day,day_of_the_week,month,quarter,year,time,维,维表,location_key,street,city,state_or_province,country,location 事,实,实表,Sales,事,事实表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,度量,item_key,item_name,brand,type,supplier_type,item,维,维表,branch_key,branch_name,branch_type,branch 维表,,,多维数据模,型,型 (3),在数据仓库,中,中,数据立,方,方体是n-D的(n维,),),(关系表和,电,电子表格是,几,几维的?),示例,AllElectronics的,销,销售数据按,维,维time, item的2-D,视,视图 (P30, 表2-2),AllElectronics的,销,销售数据按,维,维time, item和location,的,的3-D视,图,图 (P30, 表2-3),AllElectronics的,销,销售数据按,维,维time, item和location,的,的3-D视,图,图的3-D,数,数据立方体,表,表示 (P31, 图2-1),销售数据的4-D立方,体,体表示 (P31,,图,图2-2),多维数据模,型,型为不同角,度,度上的数据,建,建模和观察,提,提供了一个,良,良好的基础,,,多维数据模,型,型 (4),在数据仓库,的,的研究文献,中,中,一个n,维,维的数据的,立,立方体叫做,基本方体,。

给定一个,维,维的集合,,我,我们可以构,造,造一个,方体的格,,每个都在,不,不同的汇总,级,级或不同的,数,数据子集显,示,示数据,方,体,体的格称为,数据立方体,0维方体,存,存放最高层,的,的汇总,称,作,作,顶点方体,;而存放最,底,底层汇总的,方,方体则称为,基本方体,数据立方体,—,——一个方,体,体的格,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item, location, supplier,0-D(顶,点,点) 方体,1-D方体,2-D 方,体,体,3-D 方,体,体,4-D(基,本,本) 方体,,,数据仓库的,概,概念模型,最流行的数,据,据仓库概念,模,模型是多维,数,数据模型这,这种模型可,以,以以星型模,式,式、雪花模,式,式、或事实,星,星座模式的,形,形式存在。

星型模式(Starschema): 事,实,实表在中心,,,,周围围绕,地,地连接着维,表,表(每维一,个,个),事实,表,表含有大量,数,数据,没有,冗,冗余雪花模式(Snowflakeschema):,是,是星型模式,的,的变种,其,中,中某些维表,是,是规范化的,,,,因而把数,据,据进一步分,解,解到附加表,中,中结果,,模,模式图形成,类,类似于雪花,的,的形状事实星座(Factconstellations): 多个事,实,实表共享维,表,表, 这种,模,模式可以看,作,作星型模式,集,集,因此称,为,为星系模式,(,(galaxy schema),,,,或者事实,星,星座(fact constellation),,,星型模式实,例,例,,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,state_or_province,country,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,,,雪花模式实,例,例,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city_key,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_key,item,branch_key,branch_name,branch_type,branch,supplier_key,supplier_type,supplier,city_key,city,state_or_province,country,city,,,事实星座模,式,式实例,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,province_or_state,country,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,,Shipping FactTable,,time_key,item_key,,shipper_key,,from_location,,to_location,,dollars_cost,,units_shipped,shipper_key,shipper_name,location_key,shipper_type,shipper,,,一种数据挖掘查,询,询语言: DMQL,DMQL首先包,括,括定义数据仓库,和,和数据集市的语,言,言原语,这包括,两,两种原语定义:,一,一种是立方体定,义,义,一种是维定,义,义,立方体,定,定义(事实,表,表),definecube[]:,维定义(维,表,表),definedimensionas(),特殊案,例,例 (,共,共享维,表,表的定,义,义),第一次,作,作为维,表,表定义,“,“cubedefinition”,然后:definedimensionasincube,,,实例:,使,使用DMQL,定,定义星,型,型模式,definecubesales_star [time,item,branch, location]:,dollars_sold=sum(sales_in_dollars), avg_sales= avg(sales_in_dollars),units_sold= count(*),definedimensiontimeas(time_key, day,day_of_week, month,quarter,year),definedimensionitemas(item_key, item_name,brand, type, supplier_type),definedimensionbranchas(branch_key,branch_name, branch_type),definedimensionlocationas(location_key,street,city,province_or_state,country),,,实例,:,:使,用,用DMQL定,义,义雪,花,花模,式,式,definecubesales_snowflake[time,item,branch,location]:,dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*),definedimensiontimeas(time_key,day,day_of_week,month,quarter,year),definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)),definedimensionbranchas(branch_key,branch_name,branch_type),definedimensionlocationas(location_key,street,city(city_key,province_or_state,country)),,,实例,:,:使,用,用DMQL定,义,义事,实,实星,座,座模,式,式,definecubesales[time,item,branch,location]:,dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*),definedimensiontimeas(time_key,day,day_of_week,month,quarter,year),definedimensionitemas(item_key,item_name,brand,type,supplier_type),definedimensionbranchas(branch_key,branch_name,branch_type),definedimensionlocationas(location_key,street,city,province_or_state,country),define cubeshipping [time,item, shipper,from_location,to_location]:,dollar_cost = sum(cost_in_dollars),unit_shipped =count(*),define dimensiontimeastimein cubesales,define dimensionitemasitemin cubesales,define dimensionshipperas(shipper_key, shipper_name, locationaslocationin cubesales, shipper_type),define dimensionfrom_locationaslocationin cubesales,define dimensionto_locationaslocationin cubesales,,,度量的分类,一个数据立方体,的,的度量是一个,数值,函数,该函数可,以,以对数据立方体,的,的每一个点求值,。

刚才的示例中用,的,的是什么函数?,),度量可以根据其,所,所用的聚集函数,分,分为三类:,分布的(distributive):将函数,用,用于n个聚集值,得,得到的结果和将,函,函数用于所有数,据,据得到的结果一,样,样比如:count(),sum(),min(),max(),等,等,代数的(algebraic),:,:函数可以由一,个,个带M个参数的,代,代数函数计算(M为有界整数),,,,而每个参数值,都,都可以有一个分,布,布的聚集函数求,得,得比如:avg(),min_N(),standard_deviation(),整体的(holistic):,描,描述函数的子聚,集,集所需的存储没,有,有一个常数界比如:median(),mode(),rank(),,,5-6,王 灿,数据挖掘,sjwj@,0703004,,,概念分层 (1),一个概念分层,(,(concept hierarchy,),)定义一个映,射,射序列,将低,层,层概念映射到,更,更一般的高层,概,概念,E.g. 表,示,示location的概念,:,:杭州,浙江中国,,亚洲,概念分层允许,我,我们在各种抽,象,象级审查和处,理,理数据,概念分层可以,由,由系统用户、,领,领域专家、知,识,识工程师人工,的,的提供,也可,以,以根据数据分,布,布的统计分析,自,自动的产生,,,概念分层 (2):,location维的一个,概,概念分层,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,...,...,...,...,...,...,all,region,office,country,Toronto,Frankfurt,city,许多概念分层,的,的定义隐含在,数,数据库的模式,中,中。

比如:location维的定义,office

其,其范围限于选,定,定的主题,比,如,如一个商场的,数,数据集市,独立的数据集,市,市 VS.,非,非独立的数据,集,集市(数据来,自,自于企业数据,仓,仓库),虚拟仓库,操作数据库上,的,的一系列视图,只有一些可能,的,的汇总视图被,物,物化,,,数据仓库开发,:,:困难与方法,数据仓库开发,上,上的困难,自顶向下的开,发,发方法从全系,统,统的角度提供,解,解决方案,使,得,得(模块)集,成,成的问题最小,;,;但是该方法,十,十分昂贵,需,要,要对组织进行,长,长期研究和建,模,模分析自底向上方法,提,提供了更多的,开,开发灵活性,,价,价格便宜;但,往,往往会遇到集,成,成问题(每个,模,模块单独运行,都,都没有问题,,但,但是一集成就,出,出异常),解决方法:,使用递增性、,演,演化性的开发,方,方法,高层数据模型,,企业仓库和数,据,据集市并行开,发,发,,通过分布式模,型,型集成各数据,集,集市,,多层数据仓库,,,数据仓库开发,—,——一个推荐,的,的方法,,定义,高,高层,数,数据,模,模型,,数据,集,集市,,数据,集,集市,,,,分布,式,式数,据,据集,市,市,多层,数,数据,仓,仓库,企业,数,数据,仓,仓库,模型,提,提炼,模型,提,提炼,,,OLAP,服,服务,器,器类,型,型(1),逻辑,上,上,OLAP,服,服务,器,器从,数,数据,仓,仓库,或,或数,据,据集,市,市中,给,给商,业,业用,户,户提,供,供多,维,维数,据,据,物理,上,上,OLAP,的,的底,层,层数,据,据存,储,储实,现,现可,以,以有,多,多种,不,不同,的,的方,式,式,关系OLAP,服,服务,器,器(ROLAP),使用,关,关系,数,数据,库,库或,扩,扩展,的,的关,系,系数,据,据库,存,存放,并,并管,理,理数,据,据仓,库,库的,数,数据,,,,而,用,用OLAP中,间,间件,支,支持,其,其余,部,部分,包括每个DBMS后端优化,聚,集,集导航逻辑的实,现,现,附加的工具,和,和服务,较大的可扩展性,,,OLAP服务器,类,类型 (2),多维OLAP服,务,务器(MOLAP),基于数组的多维,存,存储引擎(稀疏,矩,矩阵技术),能对预,计,计算的,汇,汇总数,据,据快速,索,索引,混合OLAP,服,服务器(HOLAP),结合上,述,述两种,技,技术,,更,更大的,使,使用灵,活,活性,特殊的SQL,服,服务器,在星型,和,和雪花,模,模型上,支,支持SQL查,询,询,,,数据仓,库,库的实,现,现,—,——数,据,据立方,体,体的有,效,效计算,数据仓,库,库中的OLAP查询,是,是一种,海,海量数,据,据计算,(,(想,象,象一下,对,对过去10年,各,各地区,的,的软件,产,产品销,售,售的汇,总,总查询,),),用户却,希,希望这,个,个计算,能,能在数,秒,秒钟内,完,完成,解决方,法,法在于,给,给出一,种,种有效,的,的计算,数,数据立,方,方体的,方,方法,数据立,方,方体可,以,以被看,成,成是一,个,个,方体的,格,格,最底层,的,的方体,是,是基本,方,方体,最顶端,的,的方体,(,(顶点,),)只包,含,含一个,单,单元的,值,值,一个n,维,维的数,据,据立方,体,体,每,维,维L层,,,,可能,产,产生的,方,方体总,数,数是多,少,少?,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, item, year),,,方体的,操,操作,DMQL中的,方,方体定,义,义和计,算,算,definecube,sales[item,city,year]:sum(sales_in_dollars),compute cube,sales,上述的computecube,子,子句可以转,化,化为一个类,似,似于SQL,的,的语句,SELECT item, city, year,SUM (amount),FROMSALES,CUBEBY,item,city, year,这个相当于SQL中以,下,下的group by,子,子句,(item, city, year)–3D,(item, city), (itemyear), (city, year)—2D,(item), (city),(year)—1D,()--0D,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, item, year),,,数据立方体,的,的物化,数据立方体,的,的,物化,可以有以下,三,三种选择:,全物化,预先计算所,有,有方体,不物化,不预先计算,任,任何“非基,本,本”方体,部分物化,有选择的计,算,算一个所有,方,方体的适当,子,子集,考虑因素,:(1),确定要物化,的,的方体;(2)在查询,时,时利用物化,的,的方体;(3)在装载,和,和刷新时,,有,有效的更新,物,物化的方体,确定物化,哪,哪些方体,考虑工作,负,负荷下的,查,查询、它,们,们的频率,和,和它们的,开,开销等等,,,方体计算:ROLAP vs. MOLAP,方体计算的挑,战,战:,海量数据,有,限,限的内存和时,间,间,基于ROLAP的方法(底,层,层使用关系模,型,型存储数据),将排序、散列(hashing)和分组,操,操作应用于维,的,的属性,以便,对,对相关元组重,新,新排序和聚类,在某些子聚集,上,上分组,作为,“,“部分分组步,骤,骤”。

可以由以前计,算,算的聚集计算,新,新的聚集,而,不,不必有基本事,实,实表计算,基于MOLAP方法(底层,使,使用多维数组,存,存储数据),多路数组聚集,的,的计算方法,将数组切成块,(,(每个块都可,以,以整个装入内,存,存),通过访问各个,块,块来计算汇总,值,值,,,方体计算的多,路,路数组聚集方,法,法(1),将数组分成块,(,(chunk,一个可以装,入,入内存的小子,方,方),通过访问立方,体,体单元,计算,聚,聚集可以优,化,化访问单元组,的,的次序,使得,每,每个单元被访,问,问的次数最小,化,化,从而减少,内,内存访问和磁,盘,盘I/O的开,销,销A(month),40个值,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c0,b3,b2,b1,b0,a2,a3,C(item)4000,个,个值,B(city)400个,值,值,44,28,56,40,24,52,36,20,60,哪个,是,是多,路,路数,组,组聚,集,集的,最,最佳,遍,遍历,次,次序,?,?,,,方体,计,计算,的,的多,路,路数,组,组聚,集,集方,法,法(2),A(month),40,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c 0,b3,b2,b1,b0,a2,a3,C(item),4000,44,28,56,40,24,52,36,20,60,,,B(city),400,,,,,,,,,,,,,,,,,方体,计,计算,的,的多,路,路数,组,组聚,集,集方,法,法(3),A,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c0,b3,b2,b1,b0,a2,a3,C,44,28,56,40,24,52,36,20,60,,,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,方体,计,计算,的,的多,路,路数,组,组聚,集,集方,法,法(4),方法,:,:各,平,平面,要,要按,他,他们,大,大小,的,的升,序,序排,列,列进,行,行排,序,序和,计,计算,详见,书,书P50,例,例2.12(,P52,图,图2-16有,误,误,),思想,:,:将,最,最小,的,的平,面,面放,在,在内,存,存中,,,,对,最,最大,的,的平,面,面每,次,次只,是,是取,并,并计,算,算一,块,块,,,方体,计,计算,的,的多,路,路数,组,组聚,集,集方,法,法(5),根据1到64,的,的扫,描,描次,序,序,,在,在块,内,内存,中,中保,存,存所,有,有相,关,关的2-D平,面,面所,需,需的,最,最小,存,存储,为,为:,40,×,×400,(,(用,于,于整,个,个AB平,面,面),+,+40×1000,(,(用,于,于AC平,面,面一,行,行),+,+100,×,×1000(,用,用于BC,平,平面,一,一块)=156,000,这种,方,方法,的,的限,制,制:,只,只有,在,在维,数,数比,较,较小,的,的情,况,况下,,,,效,果,果才,比,比较,理,理想(要,计,计算,的,的立,方,方体,随,随维,数,数指,数,数增,长,长),如果维的,数,数目比较,多,多,可以,考,考虑使用,“,“自底向,上,上的计算,”,”或者时,“,“冰山方,体,体” 计,算,算,,,OLAP,查,查询的有,效,效处理,确定哪些,操,操作应当,在,在可利用,的,的方体上,执,执行:,将查询中,的,的选择、,投,投影、上,卷,卷和下钻,等,等操作转,化,化为对应,的,的SQL,或,或/和OLAP操,作,作,如:dice= selection+ projection,确定相关,操,操作应当,使,使用哪些,物,物化的方,体,体,找寻MOLAP中,可,可以利用,的,的索引结,构,构以及压,缩,缩的或是,稠,稠密的数,组,组结构,,,有效处理OLAP,查,查询(示,例,例),立方体的,定,定义为:sales[time,item,location]: sum(sales_in_dollar),time,的,的维层次day

有以下几,种,种:,数据仓库结构的,描,描述,仓库模式、视图,、,、维、层次结构,、,、导出数据的定,义,义,以及数据集,市,市的位置和内容,操作元数据,包括数据血统(data lineage)、,数,数据类别(currencyof data),以及监视信,息,息,汇总用的算法,由操作环境到数,据,据仓库的映射,关于系统性能的,数,数据,索引,profiles,数据,刷,刷新、更新或复,制,制事件的调度和,定,定时,商务元数据,商务术语和定义,、,、数据拥有者信,息,息、收费政策等,,,元数据的使用,元数据与数据一,起,起,构成了数据,仓,仓库中的数据模,型,型,元数据所描,述,述的更多的是这,个,个模型的结构方,面,面的信息在数据仓库中,,元,元数据的主要用,途,途包括:,用作目录,帮助,决,决策支持系统分,析,析者对数据仓库,的,的内容定义,作为数据仓库和,操,操作性数据库之,间,间进行数据转换,时,时的映射标准,用于指导当前细,节,节数据和稍加综,合,合的数据之间的,汇,汇总算法,指导,稍,稍加综合的数据,和,和高度综合的数,据,据之间的汇总算,法,法数据仓库后端工,具,具和程序,数据仓库后端工,具,具主要指的是用,来,来装入和刷新数,据,据的工具,包括,:,:,数据提取:,从多个外部的异,构,构数据源收集数,据,据,数据清理,检测数据种的错,误,误并作可能的订,正,正,数据变换,将数据由历史或,主,主机的格式转化,为,为数据仓库的格,式,式,装载,排序、汇总、合,并,并、计算视图,,检,检查完整性,并,建,建立索引和分区,刷新,将数据源的更新,传,传播到数据仓库,中,中,,,数据仓库的应用,数据仓库的三种,应,应用,信息处理,支持查询和基本,的,的统计分析,并,使,使用交叉表、表,、,、图标和图进行,报,报表处理,分析处理,对数据仓库中的,数,数据进行多维数,据,据分析,支持基本的OLAP操作,切块,、,、切片、上卷、,下,下钻、转轴等,数据挖掘,从隐藏模式中发,现,现知识,支持关联分析,,构,构建分析性模型,,,,分类和预测,,并,并用可视化工具,呈,呈现挖掘的结果,三种应用间的差,别,别,,,从联机分析处理,到,到联机分析挖掘,为什么要联机分,析,析挖掘,数据仓库中有高,质,质量的数据,数据仓库中存放,着,着整合的、一致,的,的、清理过的数,据,据,围绕数据仓库的,信,信息处理结构,存取、集成、合,并,并多个异种数据,库,库的转换,ODBC/OLEDB连接,Web,访,访问和访问工具,等,等,基于OLAP的,探,探测式数据分析,使用上卷、下钻,、,、切片、转轴等,技,技术进行数据挖,掘,掘,数据挖掘功能的,联,联机选择,多种数据挖掘功,能,能、算法和任务,的,的整合,,,联机分析挖掘的,体,体系结构,,,,,,,,,,数据仓库,元数据,多维数据库,,,OLAM,引擎,OLAP,引擎,用户图形界面API,数据方体 API,,数据库 API,,数据清理,数据集成,第三层,OLAP/OLAM,第二层,多维数据库,第一层,数据存储,第四层,用户界面,数据的过滤、集,成,成,过滤,,,,,数据库,基于约束的数据,挖,挖掘,挖掘结果,,,。

下载提示
相关文档
正为您匹配相似的精品文档