2016 - 2024

感恩一路有你

hadoop 压缩算法 mapreduce主要由哪四个阶段组成?

浏览量:3417 时间:2023-06-23 19:23:09 作者:采采

mapreduce主要由哪四个阶段组成?

bine是可选的,可以通过调用()来设置。

4.减少阶段:

执行reduce任务。reduce的数量由分区的数量决定,结果文件的数量也是如此,默认情况下记录按升序排列。可以设置reduc

如何实现交易数据到大数据平台的实时同步?

在企业级大数据平台建设中,将传统关系数据库(如Oracle)的数据聚合到Hadoop平台是一个重要的课题。

目前主流的工具有Sqoop,DataX,针对大数据的Oracle GoldenGate等等。Sqoop使用sql语句从关系数据库中获取数据,然后通过hadoop的MapReduce将关系数据库中的数据导入到HDFS,通过指定增量列或者根据时间戳来达到增量导入的目的。原则上,SQOOP是一种离线批量导入技术。DataX直接在运行DataX的机器上提取和加载数据,其主要原理是:通过Reade。r插件读取源数据,Writer插件将数据写入目标,使用Job控制同步作业,这也是一种离线批量导入技术。Oracle Goldengate for Big Data从在线日志中提取数据变化,将其转换为GGS定义的数据格式并存储在本地队列或远程队列中,并使用TCP/IP传输数据变化,集成数据压缩,提供理论压缩比为9: 1的数据压缩特性,简化了对常见大数据解决方案的实时数据交付,可以在不影响源系统性能的情况下,将交易数据实时传输到大数据系统中。对比以上工具和方法,结合数据处理的准确性和实时性要求,我们评价Oracle Goldengate for Big Data基本可以满足目前大数据平台下数据抽取的需求。

数据 大数据 平台 关系数据库 DataX

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。