数据分析数据建模方法有哪些(数仓建模全流程?)
大数据建模方法?
大数据建模的方法是将具体的数据分析模型放到其具体的业务应用场景中(如物资采购、产品销售、制造等。)来评估数据分析模型。评价模型质量的常用指标有平均误差率和判断系数,评价分类预测模型质量的常用指标有准确率。在数据分析模型的评估和测量完成后,需要将该模型应用到业务基础的实践中。加载主数据、主题数据等。从分布式的数据仓库中,通过数据呈现将隐藏在各种结构化和非结构化数据中的信息显示出来,用于解决工作中的业务问题,如预测客户行为、科学划分客户群体等。
0-@qq.com
大数据建模五步法:
步骤1:选择模型或自定义模式。
第二步:训练模型。
第三步:评估模型。
步骤4:应用模型
第五步:优化模型。
大数据建模是一个数据挖掘的过程,就是从数据中发现问题,解释这些问题,建立相应的数据模型。
大数据建模不仅仅是一项技术,而是解决业务流程问题的流程。如果没有目标或者不解决业务问题,那么就没有大数据建模。
数仓建模全流程?
1.模型建立的过程
其实就是一个业务模型——gt概念模型——gt逻辑模型——gt物理模型的过程。我们来详细解释一下每个模型阶段应该做些什么。
业务建模(需求沟通)
根据业务部门的划分,明确部门之间的关系,然后规划各部门的具体业务,与业务部门协商需求指标、存储年限、维度等。
总的来说,就是知道自己需要什么指标,能提供什么数据。
业务建模耗时最长,与公司实际业务环境密切相关,需要根据实际生产环境和业务需求来确认数据仓库使用的工具和平台。
主要解决业务层面的分解和程序化。明确系统边界,确定学科领域。
一个
一个
所以业务建模阶段其实就是一个业务与业务人员梳理的过程。在这个过程中,不仅可以帮助我们的技术人员更好地了解业务,另一方面也可以发现业务流程中一些不合理的环节,并加以改进。
概念建模|领域建模(绘制并思考如何做)
抽象出业务模型,将相似的概念分组合并,提炼概念,抽象出实体之间的关系,明确各组概念之间的关系。
说白了就是绘图,把指标需要的哪些数据封装成一个实体,实体之间的关联用ER图表示。
先画一个局部ER图,再综合画一个全局ER图。
主要是抽象业务模型,生成领域概念模型。
一个
一个
在原始数据库的基础上,建立相对稳定和完善的模型。由于数据仓库是对原有数据库系统中的数据进行整合和重组而形成的数据集,所以数据仓库的概念模型设计首先要对原有数据库系统进行分析和理解,看看原有数据库系统中有什么,如何组织,如何分布,然后再考虑如何建立数据仓库系统的概念模型。
数据仓库的概念模型是为整个企业建立的,它为集成来自各种面向应用的数据库的数据提供了统一的概念视图。
概念模型是在更高的抽象层次上设计的,因此在建立概念模型时不必考虑具体技术条件的限制。
领域概念建模是使用实体建模的方法,从复杂的业务表示背后抽象出实体、事件、描述等抽象实体,从而找出业务表示后抽象实体之间的相互关联,根据数据模型保证我们的数据仓库数据的一致性和相关性。
逻辑建模(表格设计)
物化概念模型,具体考虑概念对应的属性,考虑事件的事实属性,考虑维度的维度属性。
总的来说就是建表,关系图已经画好了。这里,只考虑表中有哪些字段。如果是事实表,考虑事实字段和业务主键。如果是维度表,考虑维度属性,SCD策略等等。您需要在这里确定数据的粒度。如果多个指标使用一个字段,则选择粒度最小的指标。如果指标的度量不确定,则以毫秒级作为粒度。
物理建模(表格构建)
综合现实的大数据平台、采集工具、etl工具、仓库组件、性能需求、管理需求等因素,设计具体的项目代码,完成仓库的构建。
2.建模的过程
假设我们现在正在构建一个订单。
从多个维度进行统计组合,形成多维数据集,从多个角度观察业务流程的质量。
一个
一个
选择业务流程
确定数据仓库应该覆盖哪些业务流程是维度方法的基础。因此,建模的第一步是描述需要建模的业务流程。例如,需要了解和分析零售店的销售情况,因此需要关注与零售店销售相关的所有业务流程。为了描述业务流程,我们可以简单地使用纯文本来记录相关内容,或者使用“业务流程建模符号”(BPMN)的方法,或者使用统一建模语言(UML)或其他类似的方法。
业务流程是在该业务场景中生成的订单表(分为业务线和数据域)。
业务流程是用户下订单的订单记录表。
选择数据字段
声明粒度
粒度是确认一个记录的意义或者它有多详细(一个记录是代表一个订单还是多个订单,比如组装一个组时负责人的订单)
必须在选择维度和事实之前声明粒度,因为每个候选维度或事实必须与定义的粒度一致。确保数据仓库的应用性能和易用性的关键是在对应于一个事实的所有维度设计中实施粒度一致性。
当从给定的业务流程中获取数据时,原始粒度是最低级别的粒度。建议从原始粒度数据开始设计,因为原始记录可以满足不可预测的用户查询。汇总数据的粒度对于优化查询性能非常重要,但这样的粒度往往无法满足明细数据的查询需求。
不同的事实可以有不同的粒度,但是不要在同一个事实中混用不同的粒度。在建立维度模型之后,因为获得了新的信息,所以可以回到这一步来修改粒度级别。
确认维度
维度的粒度必须与第二步中声明的粒度一致。
维度表是事实表的基础,也说明了事实表的数据是从哪里收集的。
典型的维度是名词,如日期、商店、库存等。维度表存储某个维度的所有相关数据。例如,日期维度应该包括年、季度、月、周和日等数据。
确认事实
这一步识别数字化的度量并形成事实表的记录。它与系统的业务用户密切相关,因为用户通过访问事实表来获取存储在数据仓库中的数据。大部分事实表的计量都是数字化的,可以累加计算,比如成本、数量、金额。
3.模型设计的理念。
业务需求驱动和数据驱动,构建数据仓库有两种方式:一种是自顶向下,另一种是自底向上。
从上到下
比尔恩门老师提倡“自上而下”的方式,即一个企业建立一个独特的数据中心,就像一个数据仓库,在这个数据中心里,数据被整合、清洗、变脏、标准化,并能提供一个统一的视图。建立这样的数据仓库,不应该从它需要支持哪些应用入手,而应该从整个企业的环境入手,分析概念和应该有什么样的数据,实现概念完成;
从下
拉尔夫金博尔老师提倡“自下而上”的方法。他认为,数据仓库的构建要根据实际应用需求加载所需数据,不必要的数据不要加载到数据仓库中。这样工期短,客户能很快看到效果。(客户需要什么就做什么。)
4.模型落地的实现。
根据命名约定创建表格
开发用于生成维度表和事实表的代码。
进行代码逻辑测试,验证数据处理逻辑的正确性,发布代码,加入调度,配置相应的质量监控和报警机制。
2-@qq.com
数据仓库建模的两种典型理论是基于主题领域的维度建模和实体关系建模,分别以Kimball和Immon为代表。
维度建模由数据分析需求驱动,提倡总线架构:一致的事实和一致的维度。这种数据模型便于用户在数据分析中理解和操作。基于主题领域的实体关系建模以源系统数据为驱动,整合企业的所有数据,在企业层面对数据进行抽象。
集成,利用3NF实体关系理论进行建模,这种数据建模方法试图以更抽象的方式建立相对稳定的数据模型,能够描述企业级的数据关系。在行业中,这两种方法经常结合使用在数据仓库的不同数据层次中。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。