hive适合存储什么文件 Hadoop生态系统及各模块的功能？

浏览量：4598 时间：2023-06-06 17:17:17 作者：采采

Hadoop生态系统及各模块的功能？

1.HDFS(Hadoop分布式文件系统)

HDFS是一个在Hadoop生态中提供分布式存储支持的系统，很多上层计算框架(Hbase，Spark等。)依靠HDFS存储。

(分布式计算模型)离线计算

什么是离线计算，其实就是非实时计算。

3.分布式资源管理器

纱线与纺织品。;的出现主要是为了解决原有Hadoop扩展性差，不支持多种计算模式的问题。

4.存储计算

Spark在内存中提供分布式计算能力，比传统的MapReduce大数据分析更高效、更快速。

5.分布式列存储数据库

Hbase继承了列存储的特点，非常适合数据的随机读写。其次，Hbase建立在HDFS之上，它内部管理的所有文件都存储在HDFS。这使得它具有高度的容错性和可扩展性，并支持Hadoop mapreduce编程模型。

6.数据仓库

7.Oozie(工作流调度程序)

Oozie是一个基于工作流引擎的调度器，它实际上是一个运行在Java Servlet容器(如Tomcat)中的JavaWeb应用程序，在其上可以运行诸如Hadoop 地图缩小和猪。

8.Sqoop和Pig

9.Flume(日志收集工具)

Flume将数据从产生、传输、处理到最终写入目标路径的过程抽象成数据流。在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持不同协议的数据采集。

10.Kafka(分布式消息队列)

Kafka是Apach

配置单元功能:

延迟高，适合高通量、批量、海量数据处理。

2，语法类似SQL，学习成本低，避免了复杂的MapReduce，缩短了开发周期。

支持自由扩展集群规模，一般不需要重启服务。

支持用户自定义函数，用户可以根据自己的需求定义函数。

5、容错性好，在节点出现问题时，SQL仍能成功执行。

上一篇小米平板5怎样关闭系统锁屏小米平板怎么取消开机密码？

下一篇歌华有线宽带连接方法歌华宽带如何用路由器？