2016 - 2024

感恩一路有你

为什么要用model建数据表 为什么建数据仓库需要使用ETL工具?

浏览量:4296 时间:2023-05-23 23:35:26 作者:采采

为什么建数据仓库需要使用ETL工具?

只要你不属于到数据源的数据吸纳、数据的计算和处理过程的开发,都是ETL,ETL就这三个阶段,Extraction灌注,Transformation转换成,Loading运行程序。

从差别数据源抽取数据EXTRACTION,遵循肯定会的数据处理规则对数据进行加工和格式转换TRASFORMATION,后来一次性处理能够完成的输出到目标数据表中也有可能是文件等等,这个那是LOADING。

再通俗一点点讲,ETL的过程就跟大家日常煮菜一样的,要到菜市场的单独的摊位买好菜,把菜买回来要摘看看,多洗几次,切一切之后下锅把菜炒好端到饭桌上。菜市场的单独的摊位那是数据源,去做的菜应该是结果的输出结果,中间的绝大部分过程像摘菜、洗菜、切菜、煮菜那是转换。

在的新的时候,大部分时候会按照ETL工具去利用,.例如常用的像KETTLE、PENTAHO、IBM DATASTAGE、INFORNAICA、微软SQL SERVER里面的SSIS等等,在特点基本都的SQL来基于整个ETL过程。

也有的是自己是从程序开发,然后再压制一些数据处理脚本跑批,基本是那就是程序加SQL利用。

哪种更好,也是必须看使用场景和开发人员对那种建议使用的十分得心应手。我看大部分软件程序开发人员子弟的,见到过数据类项目会也很很喜欢用程序再控制跑批,这是程序思维的自然延续。纯BI开发人员大部分也就就你选能成熟的ETL工具来的新,其实也有一上去就写程序脚本的,这类BI开发人员的师傅基本是是程序人员转过去的。

用程序的好处就是适配性强,可扩展性强,这个可以集成主板或拆解到到任何的程序处理过程中,没的时候使用程序开发效率更高。难就难在对魔兽维护人员有是有的技术要求,经验需要转移和可复制性太差。

用ETL工具的好处,第一是所有的ETL的开发过程可视化了,特别是在数据处理流程的分层设计中是可以很清晰的管理。第二是链接到差别数据源的时候,其它数据源、数据库的链接协议也内置了,就配置就是可以,不必须再去写程序去实现程序。第三是众多可以转换控件基本上爱磨蹭拽就也可以可以使用,能起简化后的可以用一部分SQL的开发,不需要写代码去基于。第四是这个可以更加身形灵活的设计各种ETL调度规则,高度配置化,这个也不需要写代码基于。

因为在大多数不分地区的项目中,在项目上在用ETL标准组件开发会比较好多一点。

ETL从逻辑上象可以不两类两层,控制流和数据流,这确实是很多ETL工具设计的理念,不同的ETL工具很有可能叫法完全不同。

再控制流那是操纵每个数据流与数据流一次性处理的先后流程,一个完全控制流可以不包含多个数据流。比如在数据仓库开发过程中,第一层的处理是ODS层也可以Staging层的开发,第二层是DIMENSION维度层的开发,后面几层就是DW事实层、DM数据集市层的开发。实际ETL的调度管理就这个可以让这几层并联连接过来连成一个求全部的数据处理流程。

数据流是详细的从源数据到目标数据表的数据转换过程,所以我也有ETL工具把数据流叫暗装换。在数据流的开发设计过程中比较多就是三个环节,目标数据表的链接,这两个直接通过ETL控件配置就可以了。中间可以转换的环节,这时候就肯定有很多的选择了,调SQL语句、存储过程,或者肯定在用ETL控件来实现程序。

有的项目上养成在用ETL控件来实现程序数据流中的转换,也有的是项目要求不不使用标准的转换组件使用存储过程来动态链接库。也有的是是因为数据仓库本身那个数据库不允许存储过程就只能是从标准的SQL来实现方法。

我们通常讲的BI数据架构师反正指的是ETL的架构设计,这是这座BI项目中非常核心的一层技术实现,数据处理、数据清洗和建模都是在ETL中去实现方法。一个好的ETL架构设计也可以同样能支撑上百个包那是再控制流,每个完全控制流淌下来可能会又有上百个数据流的处理过程。之后写过一篇技术文章,大家这个可以搜下关键字BIWORKETL应该要在网上还能够能找到到这篇文章。这样的框架啊,设计不光是ETL框架架构上的设计,还有一个很深的ETL项目管理和规范度控制器思想,除了后期的运维,设计和实现BI的BI结论,ETL的性能调优都会在那些个框架中换取体现了什么。而且大的BI项目很可能同样要几十人来的新ETL,框架的顶层设计就很重要。

关系数据库数据逻辑模型是什么?

关系数据库数据逻辑模型,是一种数学化的模型。它指数据的逻辑结构简单归因为满足是有条件的二维表中的元素,这样的表就为关系表。两个实体由若于个关系混编,而关系表的集合就组成为关系模型。

关系模型本身数据结构简单,能就处理各对象关系,数据如何修改和更新方便啊,不容易程序维护和理解等优点。

对数据之间的交流又不是用指针它表示,只是由数据本身大学英语值暗含地给以表示。

ETL 数据 程序 过程 开发

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。