python读取json并解析 spark怎么处理kafka中的json的数据？

2021-03-12

1486

spark怎么处理kafka中的json的数据？构造函数是KafkaUtils.createDstream创建（SSC，[ZK]，[consumer group ID]，[per topic，part

spark怎么处理kafka中的json的数据？

构造函数是KafkaUtils.createDstream创建（SSC，[ZK]，[consumer group ID]，[per topic，partitions]）使用Kafka高级使用者API使用接收器接收数据。对于所有接收器，接收到的数据将保存在spark执行器中，然后通过spark流启动一个作业来处理这些数据。默认情况下，它将丢失。您可以启用存储在HDFS上的wal日志

首先，让我们知道RDD是什么。

RDD是一组分布式对象，本质上是一组只读分区记录。

以便在群集中的不同节点上执行并行计算。

也就是说，RDD是一组只读记录分区，不能直接修改。它只能基于稳定物理存储中的数据集创建，或者通过在其他RDD上执行某些转换操作（如map、join和groupby）来创建。

RDD提供了一组丰富的操作来支持常见的数据操作，这些操作分为两种类型：操作和转换。前者用于执行计算并指定输出形式，后者指定RDD之间的相互依赖关系。

（如计数、收集等）接受RDD，但返回非RDD（即输出值或结果）。

分区可以由

new sparkconext（new sparkconf）指定。并行化（）

spark怎么处理kafka中的json的数据？

相关推荐