2016 - 2024

感恩一路有你

spark自定义数据源 mysql作为数据源可否直接用spark处理?

浏览量:1635 时间:2021-03-17 04:43:54 作者:admin

mysql作为数据源可否直接用spark处理?

谢谢。Spark通过JDBC从RDB查询数据源。不过,Spark对JDBC的支持也是一个渐进的演进过程,关键是1.3版的引入,也就是数据帧。在1.3之前,spark使用JDBCRDD处理对JDBC的查询。它实现了标准的RDD接口,如分区和计算。但对很多用户来说太复杂了。从1.3开始,您可以直接用DF接口做同样的事情。例如,下面的代码可以完成一个RDB表的查询

如您所见,无论数据源(hive、parquet,甚至NoSQL)的数据来自何处,在引入数据帧后,其代码都非常相似,结果就是数据帧,您可以尽可能地将它们混合在一起。至于dataframe如何支持多个数据源以及如何优化它们,我将再次讨论源代码。

spark自定义数据源 spark支持的数据源 kafka数据源

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。