kettle一直执行不出来结果 一个数据库是否可以创建多个kettle资源库?
一个数据库是否可以创建多个kettle资源库?
一个数据库可以创建多个kettle资源库,数据库和kettle资源库的关系实际上是包含与被包含的关系。这个建立是基于不同数据库的sql语法,可以容纳不同的kettle数据库类型,并且这些数据库类型是兼容的。
kettle中常见的资源库有三种:数据库资源库、文件资源库和pentaho资源库。
在建立过程中,系统会提示您执行sql错误。后面可以选择OK来处理这些错误,对于以上SQL执行提示的所有错误都可以选择OK来实现资源库的建立。
文件存储库定义在文件目录下。因为kettle使用虚拟文件系统(Apache VFS),这里的文件目录是一个广义的概念,包括zip文件、web服务和FTP服务。
Pentaho repository是一个插件(在kettle enterprise edition中提供),它实际上是一个内容管理系统(CMS)。它具有理想存储库的所有特征,包括版本控制和依赖性完整性检查。
kettle执行sql脚本以后,得到的结果怎么当做变量传递出去?
在转换中,每个步骤都是并发执行的。
数据流按顺序执行。
有没有扩展性较好的ETL产品?
介绍一下我知道的常用ETL工具:DataX,Datastage,Informatica,Kettle,DataPipeline。
阿里巴巴开源软件:DataX
DataX是一款针对异构数据源的离线同步工具,致力于实现包括关系数据库(MySQL、Oracle等)在内的各种异构数据源之间稳定高效的数据同步。),HDFS,Hive,ODPS,HBase,FTP等。
水壶开源软件:水壶(中文名)
Kettle是国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,扩展性好,数据抽取高效稳定。主从结构,无高可用性。它不支持数据的实时同步,也不支持断点续传。
IBM商业软件:Datastage
最专业的商业ETL工具价格昂贵,但处理速度也能在大量数据下保持较快的处理速度和稳定性。实时监控也很好,可以看到数据提取的情况,运行到哪一步,很直观。强大的售后技术支持。
商业软件:信息
专业的ETL工具,比Datastage便宜,需要安装服务器和客户端,处理速度和Datastage相当。分布式部署支持实时,但效率低。技术支持主要在美国,所以国内用的比较少。
国内:数据管道
国内收入与DataX相比,DataPipeline具有可视化的过程监控,提供多样化的图标,辅助运维,提供故障问题的实时预警。DataX需要依靠工具日志来定位故障。支持实时,DataX是定时的。支持断点续传,但不支持DataX。架构也是分布式的,支持横向扩展。
其中,水壶是扩展性较好的一款。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。