开源etl工具哪个好 数据仓库ETL到底是什么?
数据仓库ETL到底是什么?
ETL工作的实质是从各种数据源中提取数据,对数据进行转换,最后通过数据仓库的维度建模,将数据加载到表中并填充到表中。只有填写了这些维度/事实表,ETL工作才能完成。接下来,分别阐述了提取、转换和加载的三个步骤:数据仓库面向分析,操作数据库面向应用。显然,并非所有用于支持业务系统的数据都是分析所必需的。因此,本阶段主要根据数据仓库主题和主题字段确定从应用数据库中提取的编号。
在具体的开发过程中,开发人员必须经常发现数据仓库建模后某些ETL步骤与表描述不匹配。这时,需要重新检查和设计需求,重新进行ETL。正如本文在数据库系列中提到的,任何涉及需求的更改都需要重新开始并更新需求文档。
转换步骤主要是指转换提取的数据结构以满足目标数据仓库模型的过程。此外,转换过程还对数据质量负责,这也称为数据清洗。这里可以参考数据质量的内容。
在加载过程中,为确保数据质量而提取和转换的数据将加载到目标数据仓库中。加载可以分为两种类型:首次加载和刷新加载。其中,首次加载会涉及大量数据,而刷新加载是一种微批量加载。
我们可以说,随着各种分布式和云计算工具的兴起,ETL实际上已经成为ELT。也就是说,业务系统本身不会做转换工作,而是将数据导入到分布式平台进行简单清洗后,让平台进行清洗和转换工作。这样可以充分利用平台的分布式特点,使业务系统更加专注于业务本身。
为什么建数据仓库需要使用ETL工具?
数据仓库是一个战略集合,为各级决策过程提供各种数据支持。它是为分析报告和决策支持目的而创建的单个数据存储。由于要获取所有的数据,必然涉及到多系统、多类型数据库的对接问题,以及数据的提取和整理问题。
此时,ETL工具的功能体现在数据提取、转换和加载的过程中,直至用于人们的分析。ETL是数据抽取、转换和加载的过程。
在某些地方,可以先在转换中选择和加载ELT。对于日志仓库,ETL首先要考虑业务需求,最后数据登陆模型要体现一定的主题。
一般来说,数据仓库就像一个大的池。水池的供水需要水泵和水管,ETL负责水泵和水管的功能。
BI软件的ETL用开源的好,还是自研的好?
这取决于预算
几种ETL工具(kettle、talent、Informatica、datapipeline等)的比较
四种工具的比较主要从以下几个方面进行:
1。成本:
软件成本包括很多方面,主要包括软件产品、售前培训、售后咨询、技术支持等
开源产品本身是免费的,成本主要是培训和咨询,所以成本始终保持在较低的水平。
商业产品的价格非常高,但通常会提供几次免费咨询或支持,因此使用商业软件的初始成本非常高,但会逐渐降低。
人工编码初期成本不高,主要是人力成本,但后期维护工作量会越来越大。
2. 易用性:
datapipeline:GUI非常易于使用,具有丰富的视觉监控;
kettle:GUI编码;
Informatica:GUI编码,具有GUI,但经过特殊培训;
talent:GUI编码,具有GUI图形界面,但具有eclipse 3。技能要求:
数据管道:操作简单,无技术要求;
水壶:ETL设计,SQL,数据建模;
Informatica:ETL设计,SQL,数据建模;
人才:需要编写Java;
4。底层架构:
datapipeline:分布式,水平可扩展;
Ketter:主从结构不高可用性;
Informatica:分布式;
开源etl工具哪个好 oracle数据库etl工具 比kettle好用的开源etl
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。