2016 - 2024

感恩一路有你

hadoop系统框架图描述 hadoop功能介绍?

浏览量:3627 时间:2023-04-09 10:10:25 作者:采采

hadoop功能介绍?

Hadoop是一个大数据处理框架和工具。

Hdfs和mapReduce是Hadoop最初的两个核心功能。前者是存储系统,类似于把试卷放在几个柜子里,后者负责并行计算,类似于把100张试卷分给5个人批改。

Hadoop后来逐渐加入了其他工具。

Hive提供了数据汇总和查询功能,并给出了处理数据的窗口,可以对数据进行加减乘除。

Hbase是一个可扩展的非关系型数据库,不采用传统excel表格的数据格式。

Spark是一个比mapReduc

Hadoop生态系统及各模块的功能?

1.HDFS(Hadoop分布式文件系统)

HDFS是一个在Hadoop生态中提供分布式存储支持的系统,很多上层计算框架(Hbase,Spark等。)依靠HDFS存储。

(分布式计算模型)离线计算

什么是离线计算,其实就是非实时计算。

3.分布式资源管理器

纱线与纺织品。;的出现主要是为了解决原有Hadoop扩展性差,不支持多种计算模式的问题。

4.存储计算

Spark在内存中提供分布式计算能力,比传统的MapReduce大数据分析更高效、更快速。

5.分布式列存储数据库

Hbase继承了列存储的特点,非常适合数据的随机读写。其次,Hbase建立在HDFS之上,它内部管理的所有文件都存储在HDFS。这使得它具有高度的容错性和可扩展性,并支持Hadoop mapreduce编程模型。

6.数据仓库

7.Oozie(工作流调度程序)

Oozie是一个基于工作流引擎的调度器,它实际上是一个运行在Java Servlet容器(如Tomcat)中的JavaWeb应用程序,在其上可以运行诸如Hadoop 地图缩小和猪。

8.Sqoop和Pig

9.Flume(日志收集工具)

Flume将数据从产生、传输、处理到最终写入目标路径的过程抽象成数据流。在特定的数据流中,数据源支持定制Flume中的数据传输。发送方,从而支持各种协议的数据收集。

10.Kafka(分布式消息队列)

Kafka是Apache组织下的开源系统。它最大的特点是可以实时处理大量数据,满足各种需求场景,比如基于Hadoop平台的数据分析、低延迟实时系统、Storm/Spark流处理引擎等等。Kafka已被许多大公司用作各种类型的数据管道和消息系统。

11.分布式协作服务

一般来说,动物园管理员相当于一个和事佬的角色。如果两个人之间出现了一些自己无法解决的矛盾或,就需要ZooKeeper从中调解,而调解的就是根据一些规则(比如道德规则、法律规则)从第三方的客观角度对双方做出客观合理、合规的判断。

(大数据运维工具)

Ambari是一个大数据基础运维平台,实现了Hadoop生态中各种组件的自动部署、服务管理和监控告警。Ambari通过puppet实现自动安装配置,通过Ganglia收集监控指标,用Nagios实现故障报警。

数据 Hadoop 系统 工具 存储

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。