1.1.1水务大数据模型设计1111水务大数据总体技术架构水务大数据基于本次工程采购的数据集成平台、大数据平台实现水务业务大 数据管理数据集成平台完成数据的汇聚与采集,数据治理工具对采集后的数据 进行治理,形成标准规范的水务大数据主题库存储在大数据平台上,然后以API 的形式开发给应用层进行数据的使用与分析具体水务大数据架构图如下:水答大数据技术架构水底跋AH GattWay麟据牡享目录机器学习MLlib冏燧计HMapRedXML/JSaN祯虑按入 K^fk*服务e存俺与治9Yarn说一童渔管理公每式墉存全文检拳Solr/llMliaearch区 1-1水务大数据技术架构图水务数据采集数据源包括各市政单位数据、区水务局数据、水务局内部数据 及给排水企业数据等相关数据,数据的类别包括结构化数据、非结构化数据和半 结构化数据,数据格式包括关系数据格式、XML、JSON等Web服务格式,文 件、视频、图片等格式集成层使用大数据采集组件、文件接口、消息中间件、API等进行数据采集, 并提供文件导入、流式数据采集、Kafka接入、各类Socket接口、Http API等多 种接口适配方式;采集后数据经过数据治理工具进行治理和融合,并通过统一的 平台对采集日志、采集协议及接口进行综合管控。
数据存储与治理层使用分布式并行数据库MPPDB组件、分布式存储HBase 组件、分布式SQL引擎Hive组件、分布式文件系统HDFS组件相关的结构化数 据存储和非结构化的数据存储组件,利用Redis建立数据缓存,以供高效服务; 使用YARN对资源进行统一管理,使用Flink/Storm进行实时处理,使用Spark 进行内存计算,使用MapReduce进行离线计算通过以上各大数据高性能组件 为水务各种监测场景、各种数据分析场景及各种应急调度场景等提供高性能的数 据采集、数据计算和数据存储服务层基于市政大数据平台提供的多维分析Kylin组件、机器学习AI组件、 即席分析SparkSQL组件及第三方工具为大数据应用服务提供技术支撑满足水 务大数据各种数据共享交换服务、数据目录和资源目录的管理和检索查询,为各 种水务业务大数据场景分析提供技术支撑数据使能层通过API Gateway进行数据服务API的管理,调度,发布以及路 由,上层应用通过API进行数据的访问1 1 L水务大数据总体逻辑架构水务大数据基于政务云和政务大数据的总体技术架构,采用大数据和微服务 一体化设计的技术路线,对水务内部和外部提供数据服务,支撑各水务业务应用 和大数据分析场景应用需求。
水务大数据的总体架构如下图所示,主要分为:数 据源(数据感知层)、数据集成层、数据存储与治理、数据服务层和数据应用层水务大教据总体架构存储与治建层智慧 应用存果祚算图大数据总体架构数据源层是对水务感知采集数据、水务业务数据、市政各单位数据、区水务 局数据及给排水企业数据等,数据类型包括结构化数据、非结构化数据和半结构 化数据,数据集成格式包括XML、JSON、RESTful等WEB服务格式、文件、 视频、图片多媒体等格式各数据源通过规范的集成格式统一进行归集和整合数据集成层通过本次工程购置的数据集成平台分别对各种数据源数据进行 汇聚接入,提供多种汇聚集成方式,包括服务API接入、数据库、消息、文件 等接入方式,进行数据源管理、数据接口管理和采集任务管理等存储与治理层:通过大数据平台HD与MPPDB分别存储非结构化数据与结 构化数据,经过数据治理将生成标准的主题数据库数据服务层:通过数据服务层提供的各种资源服务目录对水务内部和外部进 行数据资源共享服务,对内将基础空间数据服务、基础属性数据服务和监测数据 服务对水务各业务应用系统进行基础数据服务支撑;对外提供共享开放服务,为 各区水务局及市政各单位提供水务数据共享服务。
1,1 1 3水务大数据建模流程数据建模从设计过程上可以依次分为概念模型设计、逻辑模型设计、物理模型设计三个阶段三个阶段的关系以及各自内容如下图所示:•反匝水努局业务规则和蚀名关 系.捍供折诲雎息柩梨海 •定文盅体,届性和实枚笑赛.遂立艇樱•主要关注水务曷主取囹钓信目*隹褊期曲界.推景业督范国. 划分主题忒妲敏之间敢关成•坦狷艘在将定3上的目辰观 哗了差宕察的业另翎斥:业冷燃*亏点实袍性翱0L努麴3刃哧,还蹇*坦檀触翊范必b理悭].[一】-3数据建模设计过程展示1、概念模型设计概念模型采用“自顶而下”与“自底而上”相结合的设计方法,综合考虑数据情 况和分析应用的需求首先界定系统的边界和数据范围,再将数据范围内的业务 对象按高度概括的概念层次进行归类,即划分主题域和主题子域,然后从基础数 据层基于规则生成各主题子域的视图信息主题域划分:通过设置融合信息层实现多源数据整合的数据资源建设即融 合信息层模型所描述的数据范围以能够支撑所有要求大数据系统满足的业务需 求及实现功能为目标,主要以满足各重点实体知识库和数据挖掘用高维特征库为 总体边界,以业务实体统一视图为模型主题域划分的主要参考依据,由此得到系 统的信息模型及水务局范围内的高层数据视图。
依据xx水务业务特点,可将水务总体业务分为河流、供水、污水、水灾、 设备、项目人员7大主题库(如下表)根据每个领域主题的不同特点,抽象出 领域对象,例如设备领域根据生命周期抽象为设备主数据、设备建造、设备运维、 设备运营表1.1.1-1七大主题库相关描述序号主题域描述1河流水务局管辖主要水系、支流信息、小河流等2供水供水系统、供水信息、用水数据等3污水污水处理、排放数据、相关证明等4水灾洪涝信息、湖库水情等5设备水闸、自动监测点等6人员用水人口基本信息、内部巡检人员信息等7事项在建项目信息、水事案件信息等2、逻辑模型设计(1)设计原则在设计融合信息层逻辑模型时,应满足如下原则:1) 应围绕信息主体提取应用需求构建维度模型维度模型是为业务分析服务的,所以在创建维度模型时,必须依据在业务分 析中使用到的数据创建事实实体和维度实体2) 应确保每个事实实体中的多项指标具有相同的粒度或层次同一个事实实体同一行中的多项指标都必须具有相同的详细程度(粒度), 因为,如果各项指标表现的粒度不一样,在分析展现及汇总时,较容易引起歧义3) 应创建一致的维度在整个数据中台中采用一致的维度(也叫做通用维度、标准或参考维度), 可以在所有事实实体中重复使用,从而支持从多个业务流程中整合数据,消除了 冗余设计,缩短开发过程。
4) 应确保每个信息主体都有一个与之关联的时间维度每个主体信息和主题活动都有一个时间戳信息,数据中台存储大量的历史数 据和实时数据,每个信息主体都是与时间点相关的,因此每个信息主体必须有与 之关联的时间维度它的粒度可以是年、月、周、日、小时、分5) 业务维度汇总原则数据模型应能在部分业务维度上对数据进行适度汇总,过滤掉当前认为对价 值提取意义不大的数据2)建模方法静态信息和结果统计信息的建模方法:1) 视角选择:结合SID模型和事物客观本质确定分析对象;2) 描述对象:结合自顶向下以及自底向上的方式来提炼信息对对象进行客 观描述;3) 实体关联:确定找出实体在数据层的关联子域,根据核心对象找寻所涉 及数据层实体;4) 维度提取:通过核心实体在数据层找出主键、维度、事实信息、进行维 度建模;最后,我们需要对数据源的维度展开,得到不同的分析视角5) 属性创建:创建视图所必需的元素属性,包括维度属性、量度属性,属 性创建分为采集、筛选、整合及衍生4类;6) 采集:在数据层基础上,根据范式进行相关属性提取;通常数据源中包 含大量维度,但只有部分维度是融合信息层特定实体所需要的,融合信息层只需 要提取一些分析维度。
7) 筛选:按照规则除去不需要的维度或描述类信息8) 整合:信息聚拢数据层中包含的事实信息9) 衍生:算术平均、规则计算、纵转横等10) 视图构建:生成实体-属性视图,模型表示采用星形模型或雪花模型, 表示出事实实体和维度实体之间的关联关系从上述步骤中,我们已经提取了维度,提取了量度,获得了分析视角,得到 了不同分析视角下的标签,衍生出特定的属性;将所有这些元素组合在一起,即 完成融合信息层特定视图的构建过程态信息的建模方法:1) 需求理解:基于需求理解自顶向下分析需要支撑的信息;2) 事件定义:通过需要支撑的信息来定义事件;3) 客观抽象:基于专家经验,自底向上确定事件可以尽量还原的事物行为 或活动;4) 规则构建:构建事件的更新、累计或触发的规则以下为各主题库样例:1)河流主题①主题的信息概述水务局对管辖内主要河流的基本信息,通过对各类河流进行数据的归集、清 洗,建立完整的水务主题库其中包含水务全部基础数据,对于河流的概貌描述 起到决定性的作用②实体描述样例归属主题*逻辑实体名称*逻辑实体定义河流xx全国重要江河湖泊 水功能区信息地级行政区|河流|水功能一级区(个)|水功能 二级区(个)|合计(个)河流水系信息河流名称|所属流域|流经地区|流域面积|河流长 度|源头和流向|流域图|气候条件|降雨量|蒸发 量|多年平均水资源量|最大流量及出现时间|最 小流量及出现时间|水能资源|河流主要支流信息序号|河流名称|河长|集雨面积|汇入的水功能一 级区河流小流域小流域编码|小流域名称|流域面积(平方千米) 上级河流|河长(千米)|河道比降|河源位置| 河口位置• • •2)供水管理主题①主题的信息概述供水管理主题面向水务中涉及供水渠道、供水量、供水取水证明通知等方面 描述提供相关的数据支撑,对整体用水规划有着把控作用。
②实体描述样例归属主题逻辑实体名称逻辑实体定义供水停止供水审批受理通 知信息办件流水号|单位名称|机构代码|个人姓名|证 件号码|法定代表人|证件类型|供水取水许可证信息编号|组织机构代码|单位名称|水源|取水地点|年取水总量|有效期|供水取水许可审批信息许可决定文号|审批机关名称|审批日期|许可 起始日期许可截止日期供水加(调整)年(季) 度用水计划审批信息许可决定文号|组织机构代码|单位名称|项目 地点|项目内容|有效期|审批机关名称|审批日 期供水停止供水审批信息许可决定文号|组织机构代码|单位名称|项目 地点|项目内容|有效期|审批机关名称|审批日 期供水用水数据用水资源消费• • •3)污水管理主题①主题的信息概述污水管理主题面向水务业务中污水处理渠道、处理量、污水来源等方面提供 数据支撑、对整体污水治理方面有着极大的参考作用②实体描述样例归属主题逻辑实体名称逻辑实体定义污水在建污水处理厂季报 信息序号|项目所属|项目名称|项目状态|季报编号| 上报状态|项目进度|本季度污水厂投资|形象进 度污水运营污水处理厂污水 处理率信息序号|区(市)县年份(县城)|年份(乡镇)污水污水处理在建项目月 报序号|省份|项目所属|项目名称|类型|计划投资 (万元)|设计规模(万立方米/日)|配套管网 长度(公里)|实际开工时间污水污水处理在建项目季 报序号|省份|项目所属|项目名称|季报期号|上报 状态|建设进度|本季投资额(万元)|累计投资 额(万元)污水污水排入排水管网许 可审批信息许可决定文号|组织机构代码|单位名称|排水地 点|排水水质旧排水量|有效期|审批机关名称| 审批日期|注销日期污水污水处理信息城镇生活污水处理率|四川省对xx城镇污水处 理率的考核要求|四川省对地级市污水处理率 排名情况表污水xx生活污水处理情况 一污泥产生及处置情 况xx生活污水处理情况(污泥产生及处理情况)污水xx生活污水处理情况历年xx生活污水处理厂全年运行通报• • •4)水灾主题①主题的信息概述水灾主题针对xx所管辖流域河流、湖泊、水库等因降雨量导致的各类水灾 事件数据整合并集中管理,对每年水灾阶段性可提供提前预警的作用②实体描述样例归属主题逻辑实体名称逻辑实体定义水灾水利安全事故上报信息上报单位|上报时间|新增事故|上报简要说明水灾水利安全隐患上报信息上报单位上报时间|未落实整改(隐患数量)| 落实整改(隐患数量)|正在整改(隐患数量) |完成整改(隐患数量)|上报简要说明|扫描件水灾农林牧渔业洪涝灾害统 计信息填报单位|起止日期|地区|农作物受灾面积|农 作物成灾面积|农作物绝收面积|因灾减产粮食 |经济作物损失|死亡大牲畜|水产养殖损失|农 林牧渔业直接经济损失水灾水利设施洪涝灾害统计 信息填报单位|起止日期|地区|损坏水库|水库垮坝| 损坏堤防|堤防决口损坏护岸损坏水闸|冲毁 塘坝|损坏灌溉设施|损坏水文测站|损坏机电 井|损坏机电泵站|损坏水电站|水利设施直接 经济损失|水灾洪涝灾害死亡失踪人员 基本情况统计信息填报单位|起止日期|地区|数目|类型|姓名|性别| 年龄|户籍所在地(落实到县)|死亡时间|死亡 地点|死亡原因|备注|单位负责人|统计负责人| 填报人|填报日期水灾城市受淹情况统计信息填报单位|起止日期|地区|城市名称|淹没范围| 受灾人口 |死亡人口 |进水时间|淹没历时|累积 降雨量|洪水围困人口 |紧急转移人口 |主要街 道最大水深供水中断历时供电中断历时供 气中断历时|交通中断历时|建筑物受淹|城区 直接经济损失水灾洪涝灾害实时统计信息填报单位|起止日期|地区|受灾范围|农作物受 灾面积|受灾人口 |死亡人口 |失踪人口 |转移人 口 |倒塌房屋|直接经济总损失|其中水利设施 直接经济损失|单位负责人|统计负责人|填报 人|填报日期水灾水库水情信息水位涨幅|超正常蓄水位|流量涨幅|属性|超汛 限|行政区|泄洪流量|河流|采集时间|水位|站名水灾雨情信息河流|实时雨量|当日累计|站名|行政区|属性|采 集时间| 一小时雨量|昨日累计• • •5)设备主题①主题的信息概述设备主题主要根据xx水务局管辖范围内各类监测站点设备、水闸、物资、 船舶等进行数据整合分类,对内部设备数据等进行统一管控。
②实体描述样例归属主题逻辑实体名称逻辑实体定义设备水闸信息水闸位置|水闸名称|水闸数量设备打扫船只数量信息船只编号船只名称打扫船只数量|航运号设备防洪物资储备信息序号|物资种类|防洪物资储备数量|物资名称设备救援信息和培训信息物资类别|运行目的地|运送时间设备物资管理信息抢险时间|抢险地点|抢险结果设备站点监测信息水温|电导率|浊度| PH|氨氮|高锰酸钾指数|总氮| 溶解氧|总磷等监测设备• • •6)人员主题①主题的信息概述人员主体主要涵盖在整合水务业务中参与各项事务的人员分布情况,包含基 本信息、职责和相关工作安排②实体描述样例归属主题逻辑实体名称逻辑实体定义人员水利信息行政责任人全市防汛抗旱行政责任人名单人员XX河长制管理信息系 统-巡检人数统计行政区划|巡河总人数|市级巡河人数|区县级巡 河人数|乡镇级巡河人数|村级巡河人数人员值班记录表值班时间|带班领导|主值班|副值班|司机|值班 记录|人员府南河沿线信息化管 理系统-巡查签到签到人员|签到定位位置|签到目标位置|距离|是 否有效签到|签到时间人员XX河长制管理信息系 统-巡河信息巡检记录ID|巡检人员ID|巡检人员姓名|巡检 时间|巡检轨迹经纬度列表• • •7)事项主题①主题的信息概述事项主题主要针对XX水务局在建项目和发生案件进行主题整合,提高对不 用项目数据的提取的效率和质量。
②实体描述样例归属主题*逻辑实体名称*逻辑实体定义事项再生水厂信息序号|项目名称|建设性质|建设地点|所属污水处 理厂|设计规模处理工艺|再生水用途运营单位 |项目投资|事项河道的疏淘及清淤统计文件文件名称|编制单位|编制时间|统计信息事项水事案件卷宗信息案件编号|案件类别|案件名称|立案时间|结案时 间事项水闸调度情况2013至2018市管闸坝调度情况表事项XX水资源信息数据2000年至2017年水资源公报• • •3、物理模型设计融合信息层物理模型设计主要将逻辑模型进行物理化,这其中包括对数据类 型物理化、物理命名规范化、物理存储规划、键值设计、存储周期等,这其中还 需要根据物理库的特征做特殊处理,如分布式数据的分布键设计、HDFS的路径 规划等等通常融合信息层逻辑模型和物理模型是一对一的关系,但在视图层看,一个 逻辑模型可对应多个物理模型进行存储以上三个阶段模型设计要遵循以下原则:1) 标准化、规范化原则:数据模型应遵从统一的主题域划分和实体命名规 则,保证模型的标准化和规范化;2) 先进性原则:要求逻辑模型在设计上吸收业界、国内外优秀的建模经验 与方法,确保模型的先进性;3) 一致性原则:数据模型的设计要能够确保数据的一致性,消除各数据源 的数据不一致性,以保证数据模型内的信息是关于整个企业一致的全局信息,保 证数据是可信的,可用的;4)扩展性原则:要求数据模型具备良好的可扩展性,支持对模型的迭代性 演进;5) 简单可识别原则:实体命名等要遵循简洁、能直接识别出业务意义的原 则。
6) 继承性原则:基线版本在演进过程中,非设计缺陷不得删除或修改上一 个版本的实体或字段名,同时字段新增也要遵循不改变原实体含义的原则基于上述原则,数据中台主题库将参考高校主题域构建,对数据湖的数据进 行加工、整合、数据关联,将数据湖海量的原始数据转换为可操作、可管理、有 意义的数据,能够满足业务应用的消费要求主题库采用数据仓库Inmon设计 思想,构建相对稳定的、面向主题的整合数据专题库采用Kimball维度建模设 计思路,梳理关键业务活动,识别关键的维度和事实支撑上层的分析应用主 题库和专题库的建设需要满足高等学校管理信息对应的数据元素定义要求,同时 满足校标。