有spark为什么还要hive hive和sparksql的区别?
hive和sparksql的区别?
过去,hive是用来建立数据仓库的,因此对hive管理的数据查询有很大的需求。Hive、shark和sparlsql可以查询Hive数据。Shark使用hive的SQL语法解析器和优化器,修改executor,使其物理执行过程在spark上运行;spark-SQL使用自己的语法解析器、优化器和executor,spark-SQL还扩展了接口,不仅支持hive数据查询,还支持多数据源的数据查询。
spark SQL和hive到底什么关系?
Hive是一种基于HDFS的数据仓库,提供了一种基于SQL模型的查询引擎,用于存储大数据的数据仓库的分布式交互查询。Spark SQL不能完全取代hive。它取代了hive的查询引擎。因为它的底层基于Spark自身基于内存的特性,Spark SQL的速度比hive的查询引擎快几倍。Spark本身不提供存储,因此它不能取代hive作为数据仓库的功能。sparksql相对于hive的另一个优势是它支持大量不同的数据源,包括hive、JSON、parquet、JDBC等等。由于sparksql是spark技术的核心,基于RDD,可以与spark的其他组件无缝集成,实现许多复杂的功能。例如,sparksql支持可以直接为HDFS文件执行SQL语句。
有spark为什么还要hive hivesql和sparksql的区别 spark为什么比mapreduce快
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。