2016 - 2024

感恩一路有你

hadoop distcp命令 多个集群的hdfs数据怎么同步?

浏览量:2161 时间:2021-03-11 14:42:48 作者:admin

多个集群的hdfs数据怎么同步?

1. 用相同的Hadoop版本同步数据

Hadoop distcp-skipcrccheck-Update-M 20hdfs://dchadoop002.dx:8020/user/DC/warehouse/test/user/DC/warehouse/test

2。不同的Hadoop版本同步数据

Hadoop distcp-skipcrccheck-Update-M 20hftp://ns1/user/test/User/DC/test

参数:

-M表示并发性

-skipcrccheck跳过HDFS检查

-update file

Hadoop是一个运行在集群环境中的大数据框架,包括分布式存储和分布式计算。

Hadoop流行的一个重要原因是它不需要很高的硬件,通常超过8g的内存可以运行Hadoop。许多研究Hadoop的程序员从部署伪集群开始,这表明Hadoop对硬件的要求非常低。但要想顺利运行Hadoop,其中一个关键点是增加内存和使用超过i5cpu。

Hadoop对内存和CPU的要求非常敏感。如果使用spark,建议内存大于32g,否则处理速度会受到很大影响,因为spark是基于内存的。

Hadoop是学习阶段的选择。商业大数据平台一般会在Hadoop的基础上进行打包,或者选择成熟的商业大数据平台。由于Hadoop的部署和操作维护比较麻烦,商业平台通常比较完善,使用起来也比较方便。

hadoop distcp命令 distcp 命令详解 hadoop distcp

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。