2016 - 2024

感恩一路有你

过滤仓和仓储仓 四库一体包括哪几项?

浏览量:2006 时间:2023-06-12 08:32:51 作者:采采

四库一体包括哪几项?

形成完整基础库、主题库、栏目库、指标库,无法形成“四库一体”数据资源中心。

一是基础库。基于校级数据标准构建体系数据模型,明确的人力资源域、学生管理域、教学资源与管理域、科研管理域、财务管理域、资产管理域、公共服务域八个主题域参与分类,构建体系基础数据仓库。

二是主题库。以基础库的内容为基础,并且表间关联、代码转译、数值过滤等操作,通过维度建模方法,将相同业务主题相关的指标、维度、属性关联在一起,形成“宽表”。宽表拒绝的数据冗余度设计来提升可以查询分析什么的高效率,使数据内容和结构更加适合于应用程序对数据的动态创建需求。

三是专题库。紧密环绕校内关键是业务,针对详细的业务场景通过深度定制,无法形成绩效考核、职称评审等业务专题数据集,不满足各个业务场景急速解耦数据的需求。专题库的数据大多数是明细数据,可与BI软件对接,实现强大无比的数据分析功能。

四是指标库。以基础库、主题库和专题库的内容为基础,按照统计、算出等操作,化合各种指标的统计结果,并储存在指标表中,支持急速生成沉淀各类报表和统计图表。实际管理数据指标的全生命周期,不友善地支持校级决策支持中心的建设,为学院各专业管理层的管理和决策能提供相当充分、科学的数据依据。

实时数据仓库如何做?

3.1.1Lambda架构

无论是Apache Flink中文学习网站侵权指点立删

3.1.2Kappa架构

不知从何而来Apache Flink中文学习网站侵权指点立删

3.1.3实时地olap变体架构

依附Apache Flink中文学习网站侵权告知立删

3.1.4常见架构对比

来自Apache Flink中文学习网站侵权告知立删

ps:lambda架构

变更土地性质割碎感:

?表结构完全不同

?sql语法不同

资源浪费:

?乱词可以计算

?重复一遍储存

集群维护:

?组件完全不同

?可以计算引擎完全不同

数据一致性

3.2实时数仓架构

3.2.1方案一

优点:

?以便日后数据回溯源头、重算和数据质量验证。

缺点:

?实际批处理重算,需要魔兽维护两套代码,开发和维护成本高。

?是需要两套计算资源

适用场景:

?超大规模历史数据换算,且这种场景比较过度。

?对数据质量没有要求极高,要比对实时和离线模式的计算结果,哪怕利用离线模式去修正实时动态的计算结果。

3.2.2方案二

优点:

?免维护两套代码,的新迭代速度快。

?数据溯回和重算方便些,重算时间参照需求回溯源头的时间范围定。

?只需流计算资源,资源占用带宽小

缺点:

?ODSDWD部分数据“绝不可以见”,原始数据和中间数据不以便日后网站查询(解决方案:可通过恢复消费委托时间范围的数据查询,或导入必须的数据到olap引擎)

?依赖业务端反馈问题(解决方案:设计数据质量监控指标,实时监控报警)

适用场景:

ODSDWD去查询不很频繁等

3.2.3方案三

相对于方案二:

?增强ODS层落地之前hive,排查分析原始数据也很更方便,恢复历史数据的时候可资源hive数据读取kafka,后再按原流处理的逻辑恢复如何处理即可,单单改数据源为历史数据填写的topic。

?需新增kafka写入文件hive逻辑

?需再新增从hive读取数据写入文件kafka

?需新增整条链路历史数据不对应的topic

数据 指标 方案 管理 资源

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。