2016 - 2024

感恩一路有你

java是什么 数据处理(ETL)和java开发职位选哪个?

浏览量:2156 时间:2021-04-09 01:16:35 作者:admin

数据处理(ETL)和java开发职位选哪个?

因此,如果您喜欢数据处理,请选择数据处理。如果你想用Java编程,没关系。关键是找出哪一个适合你,选择最适合你的。

etl如何实现业务原系统数据接入?数据增量全量抽取有几种方案?

我们现在做的项目对ETL很有用。

项目刚成立两三个月。目前,我指挥着四个人。明年,我们计划再增加四个人。现在,两个人在做ETL数据提取,两个人在做Java,我的战斗力可以算作三个人在做Java。

为什么要单独提取数据?

系统现在有大量的查询,这些查询是实时查询。有些查询涉及几十个表的关联,这些表少了几千万,大了几亿,所以有些接口的返回速度非常慢。

我们整理出一些可以接受T1的接口,提取相关数据,处理一次,把几十个表的数据处理成一个完整的数据,保存在mongodb中,然后提供接口服务。

以前,界面需要几秒钟才能返回,有些甚至需要十几秒钟。现在,对于500个并发应用程序,它基本上可以在100毫秒内返回。

有没有扩展性较好的ETL产品?

让我介绍一下我知道的常见ETL工具:dataX、Datastage、Informatica、kettle和datapipeline。

阿里巴巴开源软件:dataX

dataX是一款针对异构数据源的离线同步工具。致力于实现关系数据库(mysql、Oracle等)、HDFS、hive、ODPs、HBase、FTP等异构数据源之间稳定高效的数据同步

Kettle开源软件:Kettle(中文名)

Kettle是国外开源ETL工具,纯Java编写,可以在windows上运行,Linux和UNIX,具有良好的可扩展性和高效稳定的数据抽取。主从结构,无高可用性。它不支持数据的实时同步,也不支持断点续航。

IBM商务软件:Datastage

最专业的商务ETL工具,价格比较贵,但处理速度也能在大数据量下保持较快的处理速度和稳定性。实时监控也很不错,可以看到数据提取的情况,运行到哪一步,很直观。强大的售后技术支持。

商务软件:Informatica

专业ETL工具,价格比Datastage便宜一点,需要安装服务器和客户端,处理速度与Datastage相同。分布式部署,支持实时性,但效率不高。技术支持主要在美国,所以在中国使用较少。

国产:datapipeline

国产充电工具,与dataX相比,datapipeline具有可视化的过程监控,提供多样化的图标、辅助操作和维护,以及故障问题的实时报警。DataX需要依赖工具日志来定位故障问题。支持实时,dataX是定时的。支持断点延续,但dataX不支持。体系结构也是分布式的,支持水平扩展。

水壶是一个小的数据要求,它唯一的优势是免费的

1。没有过程管理。当表被锁定时,很难找到原因,并且无法终止进程,也无法控制最大进程数。

2. 数据抽取不能自动分包,也没有像ABAP这样高效的查询语句,比如select from。。所有入口都在。。大数据处理速度很慢,大量数据的日常处理无法完成。

3. 无法自动处理指定字段的增量。

4. 无法调试,调试将不提取数据。

5. 在计划处理链中指定命令非常麻烦。没有接口操作。处理链中有错误。无法继续运行或跳过处理。

6. 无法记录每个处理详细信息并记录处理时间。

7. 无法共享字段。字段不关联本位币单位,没有基础资料字段的概念。

8. 没有包处理的概念,没有日志处理。

9. 没有版本控制,联机不是传输。

10. 另外,没有外部发布WS、OData接口函数

更不用说报表函数,权限控制功能不强,底层数据库也不是多维信息立方体结构,字段也不区分指标和特征。。。。。

ETL工具,Kettle和DataStage各自有什么优缺点,目前哪个更流行一些?

两个工程师的发展方向不同,主要集中在不同的方向:[ETL工程师,主要技术发展方向集中在数据库,或者海量数据处理方向,未来可以发展到数据库开发工程师、数据库架构师、数据分析师等

Java工程师,主要侧重于软件开发方向,即编程,也可以逐步发展为高级程序员、系统架构师等

但开发不是绝对的。这主要取决于个人的机会和发展环境。我们不能说哪个好,哪个不好。

java是什么 java编程 etl工具有哪些

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。