oozie是什么工具 Hadoop生态系统及各模块的功能？

2023-07-06

2346

Hadoop生态系统及各模块的功能？1.HDFS(Hadoop分布式文件系统)HDFS是一个在Hadoop生态中提供分布式存储支持的系统，很多上层计算框架(Hbase，Spark等。)依靠HDFS存储

Hadoop生态系统及各模块的功能？

1.HDFS(Hadoop分布式文件系统)

HDFS是一个在Hadoop生态中提供分布式存储支持的系统，很多上层计算框架(Hbase，Spark等。)依靠HDFS存储。

(分布式计算模型)离线计算

什么是离线计算，其实就是非实时计算。

3.分布式资源管理器

纱线与纺织品。;的出现主要是为了解决原有Hadoop扩展性差，不支持多种计算模式的问题。

4.存储计算

Spark在内存中提供分布式计算能力，比传统的MapReduce大数据分析更高效、更快速。

5.分布式列存储数据库

Hbase继承了列存储的特点，非常适合数据的随机读写。其次，Hbase建立在HDFS之上，它内部管理的所有文件都存储在HDFS。这使得它具有高度的容错性和可扩展性，并支持Hadoop mapreduce编程模型。

6.数据仓库

7.Oozie(工作流调度程序)

Oozie是一个基于工作流引擎的调度器，它实际上是一个运行在Java Servlet容器(如Tomcat)中的JavaWeb应用程序，在其上可以运行诸如Hadoop 地图缩小和猪。

8.Sqoop和Pig

9.Flume(日志收集工具)

Flume将数据从产生、传输、处理到最终写入目标路径的过程抽象成数据流。在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持不同协议的数据采集。

10.Kafka(分布式消息队列)

Kafka是Apach

平台组件是什么？

平台组件包括以下内容，:。

传统的关系数据库为Hive、Hue和Spark组件提供元数据存储服务。

2.弹性搜索

一个具有搜索引擎和NoSQL数据库功能的开源系统，基于JAVA/Lucene，开源，分布式，支持RESTful请求。

3.弗林克

结合批处理和流处理的统一计算框架，为数据分发和并行计算提供流数据处理引擎。

4.水道

一个分布式的、可靠的、高可用的海量日志聚合系统，支持在系统中定制各种数据发送方来收集数据；

同时，Flume提供了简单处理数据并将其写入各种数据接收者(可定制)的能力。

5.HBase

它提供海量数据存储功能，是一个基于HDFS的分布式列存储系统。HDFS Hadoop分布式文件系统提供了高吞吐量的数据访问，适合大规模数据集。

基于Hadoop的开源数据仓库，提供结构化数据存储服务和类似SQL Hive查询语言的基础数据分析服务。

提供了图形用户网络界面。Hue支持各种组件的显示，目前支持HDFS、Hive、YARN/Mapreduce、Oozie、Solr和ZooKeeper。

8.卡夫卡

一种分布式、分区、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐量、低延迟和高可靠性的消息分发服务。

9.Sqoop

用于与关系数据库和文件系统交换数据和文件的数据加载工具；同时提供REST API接口供第三方调度平台调用。

它是一种分布式的数据处理模式和执行环境，提供了快速并行处理大量数据的能力。

11.驭象者

它为开源的Hadoop组件提供了任务安排和执行的功能。作为Java Web应用程序在Java servlet容器(如Tomcat)中运行，使用数据库存储工作流定义和当前运行的工作流实例(包括实例状态和变量)。

一个开源的高性能键值e分布式存储数据库，支持丰富的数据类型，弥补了memcached等键值存储的不足，满足了实时高并发需求。

它提供了小文件的后台合并功能，可以自动发现系统中的小文件(通过文件大小阈值判断)，在空闲时间进行合并，并将元数据存储在本地LevelDB中以减轻NameNode的压力，同时提供了新的文件系统接口，允许用户透明地访问这些小文件。

基于Lucene的高性能全文检索服务器。火花基于内存的分布式计算框架。

提供一个分布式、高性能、高可靠、容错的实时计算平台，能够实时处理海量数据。CQL提供的类似SQL的流处理语言可以快速开发业务，缩短业务上线时间。

16.故事

资源管理系统是一个通用的资源模块，可以为各种应用管理和调度资源。

17.动物园管理员

提供分布式、高可用的协调服务能力。帮助系统避免单点故障，从而建立可靠的应用程序。

Hadoop生态系统及各模块的功能？

平台组件是什么？

相关推荐