hive适合存储什么文件 Hadoop生态系统及各模块的功能?
Hadoop生态系统及各模块的功能?
1.HDFS(Hadoop分布式文件系统)
HDFS是一个在Hadoop生态中提供分布式存储支持的系统,很多上层计算框架(Hbase,Spark等。)依靠HDFS存储。
(分布式计算模型)离线计算
什么是离线计算,其实就是非实时计算。
3.分布式资源管理器
纱线与纺织品。;的出现主要是为了解决原有Hadoop扩展性差,不支持多种计算模式的问题。
4.存储计算
Spark在内存中提供分布式计算能力,比传统的MapReduce大数据分析更高效、更快速。
5.分布式列存储数据库
Hbase继承了列存储的特点,非常适合数据的随机读写。其次,Hbase建立在HDFS之上,它内部管理的所有文件都存储在HDFS。这使得它具有高度的容错性和可扩展性,并支持Hadoop mapreduce编程模型。
6.数据仓库
7.Oozie(工作流调度程序)
Oozie是一个基于工作流引擎的调度器,它实际上是一个运行在Java Servlet容器(如Tomcat)中的JavaWeb应用程序,在其上可以运行诸如Hadoop 地图缩小和猪。
8.Sqoop和Pig
9.Flume(日志收集工具)
Flume将数据从产生、传输、处理到最终写入目标路径的过程抽象成数据流。在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持不同协议的数据采集。
10.Kafka(分布式消息队列)
Kafka是Apach
hive分区表的特点?
配置单元功能:
延迟高,适合高通量、批量、海量数据处理。
2,语法类似SQL,学习成本低,避免了复杂的MapReduce,缩短了开发周期。
支持自由扩展集群规模,一般不需要重启服务。
支持用户自定义函数,用户可以根据自己的需求定义函数。
5、容错性好,在节点出现问题时,SQL仍能成功执行。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。