sparkstreaming的滚动窗口 spark由什么组成？

浏览量：3032 时间：2023-07-17 19:00:12 作者：采采

spark由什么组成？

Spark是一个高性能的内存处理引擎，提供基于RDD的数据抽象，可以灵活处理分布式数据集。

Spark由一系列解决不同种类问题的系统和编程库组成，包括流计算Spark Streaming、SQL引擎Spark SQL、机器学习库MLLib和图形计算框架GraphX。

Spark是一个基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用。pageRank、K-Means等算法非常适合内存迭代计算。

火花的整个生态系统都在逐渐完善，比如GraphX，SparkSQL，SparkStreaming，MLlib。当Spark有了自己的数据仓库，就完全可以媲美Hadoop生态系统了。

Spark Streaming是一个基于Spark的实时计算框架，它扩展了Spark 处理大规模流数据的能力。火花流的优点是:

它可以运行在1000个节点上，并实现二阶延迟。

使用基于内存的Spark作为执行引擎，具有高效和容错的特点。

可以集成Spark的批处理和交互查询。

它为实现复杂算法提供了一个类似于批处理的简单接口。

为此，Spark Streaming受到许多企业的追捧，并广泛应用于生产项目中。但是，在使用过程中也存在一些难题。

原文的详细解释:

专业软件开发，上学的时候专注于Java，现在已经从事Java开发一年半了。我想转向大数据。

1.先熟悉一下linux环境。大数据的很多技术都部署在linux服务器上，你熟练使用vi编辑文本。

2.部署hadoop，让hdfs和MapReduce运行。

Step 3 Deploy city zoo

4.部署hbase了解列存储的表设计方法。

5.掌握蜂巢的使用

6. Calculation of spark flow and storm flow

7.学习spark mllib，python为数据分析做准备。

有Java基础转大数据，需要学习:

1.大数据基础:Linux，Maven:Linux系统管理，Shell编程设计，Maven部署/配置/仓库，Maven POM。

2.HDFS分布式文件系统

分布式计算模型Yarn分布式资源管理器Zookeeper分布式协调服务

4.分布式数据库。

5.FlumeNG分布式数据采集系统Sqoop大数据迁移系统。

大数据黄金语言的kafka分布式总线系统。

7.SparkCore大数据计算基石SparkSQL数据挖掘工具SparkStreaming流计算平台

8.SparkMllib机器学习平台SparkGraphx图形计算平台

9.项目实战