hadoop是什么(hadoop是一种什么技术?)
Hadoop是什么?
Hadoop是由Apache基金会开发的分布式系统基础设施。用户可以开发分布式程序,而不需要了解分布式的底层细节。充分利用集群的力量进行高速计算和存储。
Hadoop框架的核心设计是HDFS和MapReduce。HDFS为海量数据提供存储,MapReduce为海量数据提供计算。
hadoop到底是什么?
Hadoop细分为两个部分,一个是HDFS,这是一个分布式文件系统,包含NameNode和DataNode,用于存储pb级的数据。它的特点是体积大,可以部署到前台和前台的数万台机器上进行存储。另一部分是MapReduce,是一个离线数据分析的计算框架,Rarn是一个资源管理类和任务调度器,用于管理和调度程序,包括但不限于MapReduce,也可以运行Spark等。
下面是生态系统。hadoop生态系统还包括spark、flume、hbase、kakfa等等。
hadoop是一种什么技术?
Hadoop是一个软件框架,可以分布式处理大量数据。用户可以在Hadoop上轻松开发和运行处理海量数据的应用,充分利用集群的力量进行高速计算和存储。
如何使用Hadoop:
构建Hadoop集群
简单来说,把Hadoop安装包放在每台服务器上,更改配置后重新启动,Hadoop集群就搭建好了。
将文件上传到Hadoop集群
Hadoop集群设置完成后,可以通过网页查看集群的情况,通过Hadoop命令上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。
编写map/reduce程序
通过集成开发工具(如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序扔到集群上的jar包中执行。运行后,得到了计算结果。
hadoop生态系统中每个组件的角色描述:
hdfs:可以存储海量数据的文件系统。
mapreduce:通过一定的算法从海量数据中计算出有用的信息。
hive:是sql语句解释器,接收用户输入的sql语句,然后将sql语句翻译成复杂的mapreduce程序,发布到mr集群运行,从而计算出有用的信息。
hbase:基于hdfs文件系统的数据库。
flume:就是把一个文件中的数据提取到另一个文件中。
sqoop:将hdfs文件系统的文件导出到linux文件系统的文件。
ooize/azkaban:该组件负责协调各种任务的执行顺序。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。