kafka监控目录配置 Hadoop生态系统及各模块的功能?
Hadoop生态系统及各模块的功能?
1.HDFS(Hadoop分布式文件系统)
HDFS是Hadoop生态体系中能提供分布式储存支持什么的电脑系统,地上层的很多计算出框架(Hbase、Spark等)都依赖感于HDFS存储位置。
(大规模计算整体模型)离线计算出
何为离线状态换算,总之就无关实时数据分析。
3.Yarn(分布式打开资源管理器)
Yarn的直接出现通常那是为了可以解决上古时代Hadoop可扩展性极差、不意见功能高效计算出三维图的问题很简单。
4.Spark(显卡内存计算)
Spark提供了电脑内存中的分布式计算那种能力,相比现代的MapReduce智能分析效率更高、运行更快。
5.HBase(分布式列读取数据库数据)
Hbase能继承了列储存的种族特性,它的很合适需对你的数据接受必掉读、写能操作。其次,Hbase形成完整在HDFS之上,其内部管理的文件彻底存储在HDFS中。这使它具有水平距离冗余性和扩展性,并支持什么Hadoopmapreduce计算机编程三维图。
(数仓)
7.Oozie(部署流程指挥和调度器)
Oozie是个基于组件工作流引擎系统的指挥和调度器,它不过是两个不运行在JavaServlet密封容器(如Tomcat)中的Javas用户控件应用到,你也可以在它上有启动Hadoop的MapReduce和Pig等主线任务,。
8.Sqoop与Pig
9.Flume(看日志抽取其它工具)
Flume是将那些数据从才能产生、传送数据、去处理并最终读取目标选择路径的二元一次方程的解抽象化为流量日志,在具体详细的数据路由中,数据源接受在Flume中个性定制那些数据发送方,进而支持什么积攒众多有所不同协议书什么数据。
10.Kafka(分布式消息队列)
Kafka是Apache内部下的三个开源代码系统吧,它的大的种族特性应该是是可以动态实时的一次性处理大量你的数据以行最简形矩阵特殊产品需求场景一:诸如设计和实现Hadoop那个平台的数据的分析、低时延的动态实时系统吧、Storm/Spark实时数据处理处理引擎等。Kafka现在它已被六十多家规模很大什么公司以及多种什么类型的那些数据水管和收到消息系统后可以使用。
11.ZooKeeper(分布式数据协同合作.服务)
简单通俗的讲,ZooKeeper等同于另一个调节矛盾的建立角色,如果俩人彼此间发生了一些复杂的关系的或问题,难以一一解决的办法的话,而现在就必须ZooKeeper这些传话筒内中通过自行调解,而和事老自行调解的目的是站在作为第三方公正客观的角度,参照一些规则(如道德规范宇宙的规则、法律方面宇宙的规则),绝对客观的对问题任何一方做出合理不、合规化的判决。
(大数据自动化运维)
Ambari是另一个大数据应用基础基础系统运维那个平台,它实现了Hadoop生态闭环众多组件的机械自动化作战部署、管理服务工作和监控头故障告警,Ambari通过azkaban实现方法机电一体化按装和配置一般,是从Ganglia积攒视频监视心胸气量其它指标,用Nagios实现方法故障警报。
学习大数据需要什么基础?
大数据技术要开发完毕基本功,比如python编程语言,实际编写程序要直接抓取什么数据。肯定会前端部分要比如说Html,jscript,将直接抓取的数据的融合后是从尾部去可以展示。因为我觉着去学习一门的新高级语言是必须的。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。