居然不知道hadoop是个啥(hadoop到底是什么?)
浏览量:1729
时间:2023-03-09 19:33:20
作者:采采
Hadoop是什么?Hadoop是Apache基金会开发的分布式系统基础设施。用户可以开发分布式程序,而无需了解发行版的底层细节。充分利用集群的力量进行高速操作和存储。
Hadoop框架的核心设计是:HDFS和MapReduce。HDFS为海量数据提供存储,MapReduc
hadoop到底是什么?
Hadoop细分为两部分。一部分是HDFS,这是一个分布式文件系统,包括NameNode和DataNode,用于存储pb级数据。它的特点是大,可以部署到前台几万台机器上进行存储。另一部分是MapReduce,是一个离线数据分析的计算框架,Rarn是一个资源管理类和任务调度器,用于管理和调度程序,包括但不限于MapReduchadoop是一种什么技术?Hadoop是一个软件框架,可以分布式处理大量数据。用户可以在Hadoop上轻松开发和运行处理海量数据的应用,充分利用集群的力量进行高速计算和存储。
如何使用Hadoop:
Hadoop集群的构建
简单来说,就是把Hadoop安装包放在每台服务器上,更改配置后再启动,就完成了Hadoop集群的构建。
将文件上传到Hadoop集群
Hadoop集群搭建完成后,可以通过网页查看集群的情况,通过Hadoop命令上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。
编写map/reduce程序
通过集成开发工具(如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序做成jar包扔在集群上执行,运行后输出计算结果。
hadoop生态系统中各组件的功能描述:
① hdfs:一个文件系统,可以存储海量数据。
② mapreduce:通过一定的算法从海量数据中计算出有用的信息。
③hive:sql语句解释器,接收用户输入的sql语句,然后将SQL语句翻译成复杂的mapreduce程序,发布到mr集群。执行操作并计算有用的信息。
④ hbase:是基于hdfs文件系统的数据库。
⑤ flume:就是从一个文件中提取数据到另一个文件中。
⑥ sqoop:将hdfs文件系统的文件导出到linux文件系统的文件。
⑦ ooize/azkaban:该组件负责协调各个任务的执行顺序。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。