有spark为什么还要hive 求问怎么设置sparksql读取hive的数据库？

浏览量：2550 时间：2021-03-16 21:55:57 作者：admin

求问怎么设置sparksql读取hive的数据库？

过去，hive是用来建立数据仓库的，因此对hive管理的数据查询有很大的需求。Hive、shark和sparlsql可以查询Hive数据。Shark使用hive的SQL语法解析器和优化器，修改executor，使其物理执行过程在spark上运行；spark-SQL使用自己的语法解析器、优化器和executor，spark-SQL还扩展了接口，不仅支持hive数据查询，还支持多数据源的数据查询。

hive和sparksql的区别？

功能点：hive:[1，数据存储

2，数据清理spark:1，数据清理2，流计算hive可以通过HQL模式读取hive数据进行数据清理spark可以通过spark SQL或spark core模式清理数据，可以读取数据源包live JDBC、hive、elasticsearch、file等，因此spark可以替换数据蜂巢的清洗功能，也可以使用蜂巢作为数据源。蜂巢的优势在于1。大数据存储。MapReduce操作通过SQL降低大数据使用门槛。Spark的优势在于1。基于内存的MapReduce操作，速度快。流计算（基准产品Flink，storm）

如何使用scala开发spark作业，并访问hive？

1。为了让spark连接到hive的原始数据仓库，我们需要在hive中连接hive-网站.xml将该文件复制到spark的conf目录，这样您就可以通过这个配置文件找到hive的元数据和数据存储。

在这里，因为我的spark是自动安装和部署的，所以我需要知道CDH将配置-网站.xml它在哪里？摸索之后。此文件的默认路径在/etc/hive/conf下

对于spark/etc/conf也是如此

此时，如上所述，相应的配置单元发生了更改-网站.xml复制到spark/conf目录

如果hive的元数据存储在mysql中，我们需要准备mysql相关的驱动程序，例如mysql-connector-java-5.1.22-bin.jar文件.

有spark为什么还要hive spark写hive表慢 spark加载hive配置

上一篇计算机网络实践报告总结大一计算机实训报告

下一篇 xml简单理解简单飞机xml笔记

有spark为什么还要hive 求问怎么设置sparksql读取hive的数据库？

求问怎么设置sparksql读取hive的数据库？

hive和sparksql的区别？

如何使用scala开发spark作业，并访问hive？

猜你喜欢

最新资讯

资讯排行

资讯分类

微信公众号

微信小程序