sparksql自定义数据源 mysql作为数据源可否直接用spark处理?
mysql作为数据源可否直接用spark处理?
谢谢。Spark通过JDBC从RDB查询数据源。不过,Spark对JDBC的支持也是一个渐进的演进过程,关键是1.3版的引入,也就是数据帧。在1.3之前,spark使用JDBCRDD处理对JDBC的查询。它实现了标准的RDD接口,如分区和计算。但对很多用户来说太复杂了。从1.3开始,您可以直接用DF接口做同样的事情。例如,下面的代码可以完成一个RDB表的查询
如您所见,无论数据源(hive、parquet,甚至NoSQL)的数据来自何处,在引入数据帧后,其代码都非常相似,结果就是数据帧,您可以尽可能地将它们混合在一起。至于dataframe如何支持多个数据源以及如何优化它们,我将再次讨论源代码。
求问怎么设置sparksql读取hive的数据库?
过去,hive是用来建立数据仓库的,因此对hive管理的数据查询有很大的需求。Hive、shark和sparlsql可以查询Hive数据。Shark使用hive的SQL语法解析器和优化器,修改executor,使其物理执行过程在spark上运行;spark-SQL使用自己的语法解析器、优化器和executor,spark-SQL还扩展了接口,不仅支持hive数据查询,还支持多数据源的数据查询。
spark sql构建特征?
1. 易于集成
SQL查询和Spark程序的无缝混合
不同语言的代码开发
2。统一数据源访问
以相同的方式连接到任何数据源。以后,sparksql可以使用统一的方式连接到任何外部数据源,而无需使用不同的api
3。兼容hive
sparksql可以支持hivesql语法sparksql兼容hivesql
4。支持标准数据库连接
sparksql支持标准数据库连接JDBC或ODBC
sparksql自定义数据源 spark rdd五大特性 sparksql自定义udf函数
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。