pyspark中文文档 spark上怎么讲读取的数据的某几行合并成一行，新手？

浏览量：1898 时间：2021-03-17 17:49:51 作者：admin

spark上怎么讲读取的数据的某几行合并成一行，新手？

#RDD指定的行数据在spark中拼接，RDD合并为一行。Python实现frompyparkimportsparkcontextsc=sparkcontext（“local”，“myapp”）行=sc.并行化([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12

spark中读入RDD的数据是自动分区的吗？

让我们先了解RDD是什么。

RDD是一组分布式对象，它本质上是一组只读分区记录。

以便在群集中的不同节点上执行并行计算。

也就是说，RDD是一组只读记录分区，不能直接修改。它只能基于稳定物理存储中的数据集创建，或者通过在其他RDD上执行某些转换操作（如map、join和groupby）来创建。

RDD提供了一组丰富的操作来支持常见的数据操作，这些操作分为两种类型：操作和转换。前者用于执行计算并指定输出形式，后者指定RDD之间的相互依赖关系。

（如计数、收集等）接受RDD，但返回非RDD（即输出值或结果）。

分区可以由

new sparkconext（new sparkconf）指定。paralleize（）]

]数据帧比RDD快。对于结构化数据，dataframe编写的代码更加简洁。

对于非结构化语音数据，建议使用RDD将其处理为结构化数据，然后将其转换为数据帧。

pyspark中文文档 spark rdd pyspark和spark关系

上一篇设置单元格区域合并后居中 excel合并并居中在哪里

下一篇 excel表格如何删除下拉选项 excel表格取消选项下拉菜单

pyspark中文文档 spark上怎么讲读取的数据的某几行合并成一行，新手？

spark上怎么讲读取的数据的某几行合并成一行，新手？

spark中读入RDD的数据是自动分区的吗？

猜你喜欢

最新资讯

资讯排行

资讯分类

微信公众号

微信小程序