spark的job调度流程 Spark的核心组件有几部分？

浏览量：2431 时间：2021-03-14 18:36:23 作者：admin

Spark的核心组件有几部分？

实现了spark的基本功能，包括任务调度、内存管理、错误恢复和存储系统交互。Spark内核还包含了弹性分布式数据集的定义

Spark是一个用来操作结构化数据SQL的程序，我们可以使用SQL或hive（HQL）来查询数据，支持多种数据源，比如hive表是JSON，除了提供SQL查询接口外，还支持SQL与传统RDD的结合，开发人员可以使用SQL和编程（API）同时查询和分析应用程序中的数据。

它是spark提供的用于实时数据流计算的组件。例如，web服务器日志或消息队列是数据流。

Spark提供了一个通用机器学习函数库，包括许多机器学习算法，如分类、回归、聚类、协作过滤等。

用于图形计算，如社交网络朋友图。

MapReduce是Hadoop的分布式计算编程框架

其核心功能是将用户编写的逻辑代码和自己的组件集成到一个程序中，在Hadoop集群上并发运行。核心组件是mrappmaster maptask Reducetask

spark是MapReduce的替代品，兼容HDFS和hive，可以集成到Hadoop生态系统中

它们之间的区别

1。Spark比MapReduce快

基于内存的计算比MapReduce快100多倍

基于硬盘的计算比MapReduce快10多倍

2。Spark支持流媒体和离线计算

MapReduce只支持离线计算

3。MapReduce没有资源调度系统，它必须在诸如yarn这样的资源系统上运行

spark集成了资源调度，并且可以在独立模式下在自己的主进程和工作进程上运行，或者在yarn上运行

空间有限，所以让我们先来介绍它。欢迎留言

上一篇变量python python变量赋值

下一篇电脑服务与控制器cpu占用高 win10刚开机cpu就满了