单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,*,第二章 数据仓库的分析,,主要内容,,如何建立数据仓库的需求模型?,,影响数据仓库成功的因素有哪些?,,数据仓库开发各阶段的任务是什么?,,数据仓库的基本体系结构是怎样的?,,数据仓库的逻辑结构是怎样的?,12/11/2024,1,,1、如何建立数据仓库的需求模型?,——是数据仓库的分析中首要解决的问题,12/11/2024,2,,图2.1 数据仓库的需求分析模型,12/11/2024,3,,2、影响数据仓库成功的因素有哪些?,12/11/2024,4,,影响因素,数据存储的组织方式,决定了数据的可获取性与有用性,进而决定了数据的价值数据仓库的数据库结构有以下要求:(P44表2.1),,反映静态数据,,存储历史数据,,在时间上是可见的、明确的,,数据的粒度是详细的可导出的汇总,,定期的、计划的更新,,支持的任务是不可预期的,,对数据库的灵活性要求高,12/11/2024,5,,12/11/2024,6,,12/11/2024,7,,3、数据仓库开发各阶段的任务是什么?,12/11/2024,8,,传统的操作型系统的生命周期,,System Development Life Cycle,,,SDLC,系统开发生命周期,,,需求驱动,的开发生命周期,12/11/2024,9,,数据仓库的生命周期CLDS,,CLDS,数据驱动,的开发生命周期(SDLC的逆序),,实现数据仓库,,集成数据,,检验偏差,,针对数据编程,,设计DSS系统,,分析结果和,,理解需求,,参见P45图2.5,12/11/2024,10,,12/11/2024,11,,1.数据仓库计划与准备阶段,,用户需求分析,,可行性研究,,用户的认可,,建设数据仓库的协调与阻力分析,,开发项目计划制定,,关键资源管理,12/11/2024,12,,(1)用户需求分析内容,用户如何处理其事务,,如何衡量用户的工作表现,,用户需要什么属性(在信息方面),,应用于这些属性的业务层次结构是什么,,用户现在使用什么数据,以及需要什么数据,,用户需要什么水平的细节或汇总数据,12/11/2024,13,,12/11/2024,14,,(2)可行性研究,,三个重要分析,,技术可行性,,操作可行性,,经济可行性,12/11/2024,15,,(3)用户认可(User buy in),重要因素,,用户大力支持不可少,其与上层的支持是不同的,,不能完全改变决策方式,只能改变决策信息的获取方法,改进用户获取信息的方法,,数据仓库必须经常集成其中应用软件的数据,理解用户的看法,12/11/2024,16,,(4)建设数据仓库的协调与阻力分析,12/11/2024,17,,(5)开发项目计划制定,12/11/2024,18,,(6)创建数据仓库所使用的关键资源,,人才,,业务分析员,,确定和定义目的和目标用户群,,确定满足组织战略性商业目标,,数据体系结构设计师,,数据的采集、转换、分配和加载,,定义数据模型,,信息系统服务人员,,最终用户支持人员,,领导和管理人员,,项目领导,,项目经理,,硬件,,软件,12/11/2024,19,,2.数据仓库的其他阶段,,12/11/2024,20,,数据仓库的系统分析,,系统分析的目标是了解当前实际是如何工作的,以使得系统的操作可在将来得到改善。
原型法,,注意:不能与其所有可操作数据源相连,数据仍然需要做数据净化、传送等工作,,开发方法,,数据驱动法,,应用驱动法,12/11/2024,21,,数据驱动方法,,数据源:连续的数据源,,次序:自顶向下,,优点:每一个阶段在技术上都很简单,只涉及一个文件或数据库类型映射到数据仓库数据库之中,每个附加数据源只有在其前面的附加数据源处理完之后才添加缺点:数据资源不能利落地映射到商业查询中12/11/2024,22,,应用驱动方法,,数据源:来自几个操作系统的数据,,次序:自顶向下,,优点:在第一阶段就提供有用的信息,,缺点:到达这一阶段要花费较长的时间、并且需要的活动很多很复杂,12/11/2024,23,,数据仓库系统设计,,重点:设计数据仓库的元素,即数据库和数据分析,,如何选择数据库体系结构,,按照哪种系统结构设计,,如何安排数据库,,定义数据如何使用所有的数据源都被映射传送到数据仓库,,描述数据仓库何时及时如何更新并回答程序员遇到的无数多个”我该怎么办”,12/11/2024,24,,数据仓库的测试,,适用于顺序测试,,确保对源文件提取记录及字段的正确性,,证明传送和净化工作正常,对比元数据,检查数据仓库内容以确保整个加载过程有效,可能要测试有关已知谁的回答的分析。
增强维护,增强用户支持,12/11/2024,25,,思考,查阅赛迪网,阅读和比较不同的数据仓库的解决方案明确数据驱动法与应用驱动法两种方法在数据仓库实施中的不同表现12/11/2024,26,,4、数据仓库的基本体系结构是怎样的?,12/11/2024,27,,数据仓库基本体系结构,12/11/2024,28,,数据仓库体系结构,数据是从各种内外部的源系统文件或数据库中抽取得到,不同源系统中的数据在加载到数据仓库之前需要被转换和集成,建立为决策支持服务的数据库,即数据仓库,它通常会同时包括详细的和概括的数据,数据仓库,用户通过SQL查询语言、分析工具或数据挖掘工具访问数据仓库,12/11/2024,29,,数据仓库体系结构,,12/11/2024,30,,数据分级,,Data Staging,,提取,转化,净化,加载,,,数据仓库不直接存储事务数据,,提取时必须将事务数据进行转换成数据仓库的数据结构和内部格式,为了保证数据的品质,还要对数据进行净化,将净化后的数据加载到数据仓库中12/11/2024,31,,ETL(提取—转换—加载),,数据的提取—转换—加载(ETL)是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换、加载与索引等数据调和工作。
ETL是数据仓库系统中最重要的处理工具之一,它的主要任务是建立、维护数据仓库,通过与操作型数据源的映像关系执行数据提取—转换—加载的任务其中涉及各种各样的技术和处理,比如,数据清洗及其准备结构的设计和处理、映像技术和方法、粒度的考虑,以及数据的提取、转换、追加、加载作业控制等一系列问题操作型系统,数据仓库,提取,集结地,清洗,转换,加载与索引,拒绝数据的信息,有关拒绝数据的信息,12/11/2024,32,,元数据,,元数据Metadata,,“有关数据的数据”,,“数据仓库的元数据是要解决何人在何时何地为了什么原因及怎样使用数据仓库的问题” 可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系作用:,,,通过元数据进行数据仓库的管理;,,通过元数据来使用数据仓库12/11/2024,33,,,技术元数据,:用于对数据仓库进行管理的元数据,,是数据仓库的设计和管理人员用于数据仓库开发和日常管理数据仓库时使用的元数据它包括数据源信息、数据转换的描述、数据仓库对象和数据结构的定义、数据清理和数据更新时采用的规则、源数据到目的数据的映射、用户访问权限、数据备份历史纪录、数据导入历史纪录、信息发布历史纪录等。
商业元数据,:帮助使用数据仓库的元数据,,从商业业务的角度描述了数据仓库中的数据它包括业务主题的描述,以及对所包含的数据、查询、报表的描述,等等12/11/2024,34,,元数据为访问数据仓库提供了一个信息目录,,数据仓库中都有些什么数据,,这些数据是怎么得到的,,谁在管辖,,怎么访问这些数据,,其他更多的信息,,可通过查询工具得知元数据的有关资料,,元数据是数据仓库运行和维护的中心,数据仓库服务器必须利用元数据来存储和更新数据,用户必须通过元数据来了解和访问数据12/11/2024,35,,数据仓库数据库,,是整个数据仓库环境的核心,是数据存放的地方,提供对数据的支持和快速检索的支持,,相对于操纵型数据库来说,其突出的特点是,对海量数据的支持和快速的检索技术,包含,,明细数据和汇总数据,12/11/2024,36,,查询工具,,查询工具通常包括一个用于向数据库提出问题的最终用户接口,此接口位于,联机分析处理OLAP,的程序中12/11/2024,37,,4、数据仓库的逻辑结构是怎样的?,12/11/2024,38,,数据仓库的粒度,,粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
12/11/2024,39,,数据仓库的粒度,粒度,,粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多反之,粒度的增大将会提高查询效率,但同时也造成回答细节问题能力的下降低粒度级(高细节级),,高粒度级(低细节级),,例如:电讯公司数据仓库中,保存一个顾客一个月内每个电话的细节——高细节级,低粒度级,假设有200个记录,包含本月内200个电话的任何信息;保存一个顾客一个月内每天电话的汇总——轻度综合,较高粒度级,只有30或31条记录,只能回答汇总查询的问题保存一个顾客一个月内的电话的综合——低细节级,高粒度级,只有一条记录12/11/2024,40,,轻度综合数据,,12/11/2024,41,,数据仓库的粒度,,双重粒度,,指轻度综合数据和真实细节数据级(最低粒度级),,大部分的分析数据是针对被压缩的、存取效率高的轻度粒度级数据进行的需要分析更低的细节数据时才访问最低粒度级数据12/11/2024,42,,12/11/2024,43,,数据仓库中的数据分割,,把数据分散到各自小的物理单元中去,,任何给定的单元属于一个分割,,数据分割后的数据单元称为分片,,分割后的单元具有,灵活性,,能够实现重构、索引、顺序扫描、重组、恢复、监控等,12/11/2024,44,,数据分割,,12/11/2024,45,,12/11/2024,46,,数据仓库中数据组织,,简单堆积结构,,轮转综合数据存储,,简单直接文件,,连续组织,12/11/2024,47,,简单堆积结构,,从操作型环境中取出每天的事务数据,,根据主题来综合成数据仓库记录,12/11/2024,48,,轮转综合数据存储,只有在轮转综合文件中的数据才能被输入到不同的结构形式中,而操作型数据到数据仓库环境中的数据处理方法简单的堆积结构相同。
方式:每天进行数据综合,每周累加,月底将每周的数据加到一起,并放于第一个每月响应的数据位置处,然后每周数据位置清零到了年底,将每月数据累加,放入第一个年度响应的数据位置处,然后每月数据位置清零12/11/2024,49,,简单堆积与轮转综合的比较,12/11/2024,50,,简单直接文件组织,,把数据从操作型环境拖入数据仓库环境中,无任何累积,以较长时间为单位的,,它是间隔一定时间的操作型数据的一个快照,12/11/2024,51,,连续数据组织,,依据两个或更多的简单直接文件快照进行合并创建或追加的,12/11/2024,52,,快照,,是为一些事件的发生而产生的,,事件的类型,,随机发生的离散活动,,在规定时间点,,事件触发快照,其基本结构由四个部分组成,,键码(Key),,时间单元(描述事件已发生或捕捉数据的时间),,只和关键码相关的初始数据,,与关键码无直接关系的二次数据,12/11/2024,53,,课堂练习,,充分认识数据仓库中几个关键术语,说明它们的概念与意义,,ETL,,元数据,,粒度,,数据分割,,快照,,轮转综合数据存储,12/11/2024,54,,。