有spark为什么还要hive hive和sparksql的区别？

浏览量：1680 时间：2021-03-10 16:13:29 作者：admin

hive和sparksql的区别？

过去，hive是用来建立数据仓库的，因此对hive管理的数据查询有很大的需求。Hive、shark和sparlsql可以查询Hive数据。Shark使用hive的SQL语法解析器和优化器，修改executor，使其物理执行过程在spark上运行；spark-SQL使用自己的语法解析器、优化器和executor，spark-SQL还扩展了接口，不仅支持hive数据查询，还支持多数据源的数据查询。

如何使用scala开发spark作业，并访问hive？

1. 为了让spark连接到hive的原始数据仓库，我们需要在hive中连接hive-网站.xml将该文件复制到spark的conf目录，这样您就可以通过这个配置文件找到hive的元数据和数据存储。

在这里，因为我的spark是自动安装和部署的，所以我需要知道CDH将配置-网站.xml它在哪里？摸索之后。此文件的默认路径在/etc/hive/conf下

类似地，spark的conf在/etc/spark/conf下

此时，如上所述，相应的配置单元被更改-网站.xml复制到spark/conf目录

如果hive的元数据存储在mysql中，我们需要准备mysql相关的驱动程序，例如mysql-connector-java-5.1.22-bin.jar文件.

spark SQL和hive到底什么关系？

Hive是一种基于HDFS的数据仓库，提供了一种基于SQL模型的查询引擎，用于存储大数据的数据仓库的分布式交互查询。Spark SQL不能完全取代hive。它取代了hive的查询引擎。因为它的底层基于Spark自身基于内存的特性，Spark SQL的速度比hive的查询引擎快几倍。Spark本身不提供存储，因此它不能取代hive作为数据仓库的功能。sparksql相对于hive的另一个优势是它支持大量不同的数据源，包括hive、JSON、parquet、JDBC等等。由于sparksql是spark技术的核心，基于RDD，可以与spark的其他组件无缝集成，实现许多复杂的功能。例如，sparksql支持可以直接为HDFS文件执行SQL语句。

有spark为什么还要hive hive支持的执行引擎有哪些 hive切换spark引擎教程

上一篇 composer镜像 composer是什么意思啊

下一篇支持脚本的安卓浏览器支持js脚本的手机浏览器

有spark为什么还要hive hive和sparksql的区别？

hive和sparksql的区别？

如何使用scala开发spark作业，并访问hive？

spark SQL和hive到底什么关系？

猜你喜欢

最新资讯

资讯排行

资讯分类

微信公众号

微信小程序