parallelize函数 spark中读入RDD的数据是自动分区的吗？

浏览量：1172 时间：2021-03-16 05:26:25 作者：admin

spark中读入RDD的数据是自动分区的吗？

让我们先了解RDD是什么。

RDD是一组分布式对象，本质上是一组只读分区记录。

以便在群集中的不同节点上执行并行计算。

也就是说，RDD是一组只读记录分区，不能直接修改。它只能基于稳定物理存储中的数据集创建，或者通过在其他RDD上执行某些转换操作（如map、join和groupby）来创建。

RDD提供了一组丰富的操作来支持常见的数据操作，这些操作分为两种类型：操作和转换。前者用于执行计算并指定输出形式，后者指定RDD之间的相互依赖关系。

（如计数、收集等）接受RDD，但返回非RDD（即输出值或结果）。

分区可以由

new sparkconext（new Sparkconf）指定。Parallelize（）用这种方式指定分区

~]#在spark中拼接RDD指定的行数据，并将RDD合并成一行。Python实现frommysparkimportsparkcontextsc=sparkcontext（“local”，“myapp”）行=sc.并行化（[[1，2，3]，[4，5，6]，[7，8，9]，[10，11，12

）#获取指定行的数据并返回rdddefgetnum（s）：#全局行号迭代glo Ballcounter#指定行号。Globalrowcounter=1If（counter==row）：returncounter=0row=3#cache（）缓存数据x1=行。筛选器（getnum）.cache（）行=4x2=行。筛选器（getnum）。Cache（）#生成rddxx=x1。包含两个RDD中所有元素的并集（x2）打印xx.collect（）

spark上怎么讲读取的数据的某几行合并成一行，新手？

ass UsridPartitioner（numParts:内部)Extends partitioner{//number of covered partitions override def Numpartitions:int=numparts//get function override def getpartition（key:any）：int=numparts{key.toString.toInt键}}对象测试{def main（args:array）[字符串]{Val conf=new sparkconf（）Val SC=new sparkcontext（conf）//模拟5个分区的数据Val data=sc.并行化（1到10,5）//按尾号分成10个分区，分为10个文件数据.map（（（1））.partitionBy（新UsridPartitioner（10））.sa

parallelize函数 twitch nitch

上一篇建设js900 建设js900摩托车视频

下一篇易语言http框架易语言官网

parallelize函数 spark中读入RDD的数据是自动分区的吗？

spark中读入RDD的数据是自动分区的吗？

spark上怎么讲读取的数据的某几行合并成一行，新手？

猜你喜欢

最新资讯

资讯排行

资讯分类

微信公众号

微信小程序