etl数据抽取工具 开源etl工具比较,kettle和talend,都有什么优势和劣势?
开源etl工具比较,kettle和talend,都有什么优势和劣势?
几种ETL工具(kettle、talent、Informatica、datapipeline等)的比较
四种工具的比较主要从以下几个方面进行:
1。成本:
软件成本包括很多方面,包括软件产品、售前培训、售后咨询、技术支持等
开源产品本身是免费的,成本主要是培训和咨询,所以成本始终保持在较低的水平。
商业产品的价格非常高,但通常会提供几次免费咨询或支持,因此使用商业软件的初始成本非常高,但会逐渐降低。
人工编码初期成本不高,主要是人力成本,但后期维护工作量会越来越大。
2. 易用性:
datapipeline:GUI非常易于使用,具有丰富的视觉监控;
kettle:GUI编码;
Informatica:GUI编码,具有GUI,但经过特殊培训;
talent:GUI编码,具有GUI图形界面,但具有eclipse 3。技能要求:
数据管道:操作简单,无技术要求;
水壶:ETL设计,SQL,数据建模;
Informatica:ETL设计,SQL,数据建模;
人才:需要编写Java;
4。底层架构:
datapipeline:分布式,水平可扩展;
Ketter:主从结构不高可用性;
有没有扩展性较好的ETL产品?
介绍我知道的常见ETL工具:dataX、Datastage、Informatica、Ketter、datapipeline。
阿里巴巴开源软件:dataX
dataX是一款针对异构数据源的离线同步工具。致力于实现关系数据库(mysql、Oracle等)、HDFS、hive、ODPs、HBase、FTP等异构数据源之间稳定高效的数据同步
Kettle开源软件:Kettle(中文名)
Kettle是国外开源ETL工具,纯Java编写,可以在windows上运行,Linux和UNIX,具有良好的可扩展性和高效稳定的数据抽取。主从结构,无高可用性。它不支持数据的实时同步,也不支持断点续航。
IBM商务软件:Datastage
最专业的商务ETL工具,价格比较贵,但处理速度也能在大数据量下保持较快的处理速度和稳定性。实时监控也很不错,可以看到数据提取的情况,运行到哪一步,很直观。强大的售后技术支持。
商务软件:Informatica
专业ETL工具,价格比Datastage便宜一点,需要安装服务器和客户端,处理速度与Datastage相同。分布式部署,支持实时性,但效率不高。技术支持主要在美国,所以在中国使用较少。
国产:datapipeline
国产充电工具,与dataX相比,datapipeline具有可视化的过程监控,提供多样化的图标、辅助操作和维护,以及故障问题的实时报警。DataX需要依赖工具日志来定位故障问题。支持实时,dataX是定时的。支持断点延续,但dataX不支持。体系结构也是分布式的,支持水平扩展。
水壶是一个小的数据要求,它唯一的优势是免费的
1。没有过程管理。当表被锁定时,很难找到原因,并且无法终止进程,也无法控制最大进程数。
2. 数据抽取不能自动分包,也没有像ABAP这样高效的查询语句,比如select from。。所有入口都在。。大数据处理速度很慢,大量数据的日常处理无法完成。
3. 无法自动处理指定字段的增量。
4. 无法调试,调试将不提取数据。
5. 在计划处理链中指定命令非常麻烦。没有接口操作。处理链中有错误。无法继续运行或跳过处理。
6. 无法记录每个处理详细信息并记录处理时间。
7. 无法共享字段。字段不关联本位币单位,没有基础资料字段的概念。
8. 没有包处理的概念,没有日志处理。
9. 没有版本控制,联机不是传输。
10. 另外,没有外部发布WS、OData接口函数
更不用说报表函数,权限控制功能不强,底层数据库也不是多维信息立方体结构,字段也不区分指标和特征。。。。。
ETL工具,Kettle和DataStage各自有什么优缺点,目前哪个更流行一些?
ETL工作的实质是从各种数据源中提取数据,对数据进行转换,最后通过数据仓库的维度建模,将数据加载并填充到表中。只有填写了这些维度/事实表,ETL工作才能完成。接下来,分别阐述了提取、转换和加载的三个步骤:数据仓库面向分析,操作数据库面向应用。显然,并非所有用于支持业务系统的数据都是分析所必需的。因此,本阶段主要根据数据仓库主题和主题字段确定从应用数据库中提取的编号。
在具体的开发过程中,开发人员必须经常发现数据仓库建模后某些ETL步骤与表描述不匹配。这时,需要重新检查和设计需求,重新进行ETL。正如本文在数据库系列中提到的,任何涉及需求的更改都需要重新开始并更新需求文档。
转换步骤主要是指转换提取的数据结构以满足目标数据仓库模型的过程。此外,转换过程还对数据质量负责,这也称为数据清洗。这里可以参考数据质量的内容。
在加载过程中,为确保数据质量而提取和转换的数据将加载到目标数据仓库中。加载可以分为两种类型:首次加载和刷新加载。其中,首次加载会涉及大量数据,而刷新加载是一种微批量加载。
我们可以说,随着各种分布式和云计算工具的兴起,ETL实际上已经成为ELT。也就是说,业务系统本身不会做转换工作,而是将数据导入到分布式平台进行简单清洗后,让平台进行清洗和转换工作。这样可以充分利用平台的分布式特点,使业务系统更加专注于业务本身。
数据仓库ETL到底是什么?
ETL只是数据处理的一个小分支。我以前做过数据中心产品。ETL工具使用开源的kettle,这很容易使用。
但是仅仅用ETL来进行数据收集和清理并不能使整个数据中心产品成为可能。如何提高海量数据处理的效率
如何审核数据的一致性,如何在多个屏幕上显示和交互都有很大的知识。
如果我们只是做ETL,它有点太窄,而且未来的就业选择不够广泛。
建议尽量选择更广泛的数据处理工作,如大数据处理技术。
个人建议,欢迎讨论
etl数据抽取工具 12个超炫数据可视化工具 etl常用的三种工具介绍
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。