2016 - 2024

感恩一路有你

开源etl工具 数据仓库ETL到底是什么?

浏览量:2558 时间:2021-04-11 12:13:30 作者:admin

数据仓库ETL到底是什么?

ETL工作的实质是从各种数据源中提取数据,对数据进行转换,最后通过数据仓库的维度建模,将数据加载到表中并填充到表中。只有填写了这些维度/事实表,ETL工作才能完成。接下来,分别阐述了提取、转换和加载的三个步骤:数据仓库面向分析,操作数据库面向应用。显然,并非所有用于支持业务系统的数据都是分析所必需的。因此,本阶段主要根据数据仓库主题和主题字段确定从应用数据库中提取的编号。

在具体的开发过程中,开发人员必须经常发现数据仓库建模后某些ETL步骤与表描述不匹配。这时,需要重新检查和设计需求,重新进行ETL。正如本文在数据库系列中提到的,任何涉及需求的更改都需要重新开始并更新需求文档。

转换步骤主要是指转换提取的数据结构以满足目标数据仓库模型的过程。此外,转换过程还对数据质量负责,这也称为数据清洗。这里可以参考数据质量的内容。

在加载过程中,为确保数据质量而提取和转换的数据将加载到目标数据仓库中。加载可以分为两种类型:首次加载和刷新加载。其中,首次加载会涉及大量数据,而刷新加载是一种微批量加载。

我们可以说,随着各种分布式和云计算工具的兴起,ETL实际上已经成为ELT。也就是说,业务系统本身不会做转换工作,而是将数据导入到分布式平台进行简单清洗后,让平台进行清洗和转换工作。这样可以充分利用平台的分布式特点,使业务系统更加专注于业务本身。

大数据ETL工程师是做什么的,发展前景如何?

ETL工程师是大数据仓库方向的一个职位,主要从事数据清洗、提取和转换。目前,Hadoop的HDFS主要用作存储平台,hive用作数据建模、清洗和结构化数据分析,并使用工具或脚本将数据导入关系数据库数据节点,作为后续部门的结果数据。

一般的工作应该是通过hivesql、shell脚本或oozie等作业相关工具进行数据分析和统计,以便进行任务周期调度

还有很大的发展空间。利用SQL实现业务可以锻炼思维逻辑,增加工作经验,后续可以做数据建模工程师,可以指导战士做日常开发,而且薪水可观

开源etl工具 etl工具 数据仓库etl开发过程

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。