hadoop与spark比较大数据里spark和hadoop的mr相比有哪些优势，能否用较通俗的语言解释一下？

浏览量：3201 时间：2021-03-17 15:34:51 作者：admin

大数据里spark和hadoop的mr相比有哪些优势，能否用较通俗的语言解释一下？

Spark是一个内存计算框架，而Mr是一个离线计算框架。因此，与MR相比，spark具有更快的速度，尤其是迭代速度。当spark用于计算时，中间结果将缓存在内存中。当需要再次使用时，不需要从磁盘读取数据。Mr需要将中间结果写入磁盘，并在再次使用时从磁盘重新读取。磁盘I/O通常非常耗时。

除了离线计算速度更快之外，spark比Mr更适合场景，spark的流媒体模块可以实现实时或近线流媒体计算。

此外，sparksql使您可以轻松地使用SQL分析数据。

Hadoop是当前大数据管理标准之一，在许多商业应用系统中都有使用。它可以方便地集成结构化、半结构化甚至非结构化的数据集或离线处理。批处理的应用更为广泛。Hive

storm是一个用于处理高速大数据流的分布式实时计算系统。在Hadoop中添加可靠的实时数据处理功能

spark是基于内存的，吞吐量比storm大一点。而spark集成的spark SQL、mllib、graph似乎更方便

一般来说，会用到主流行业的大数据技术Hadoop和spark。学习时，两个系统都会学习，先学习Hadoop，再学习spark。

Apache开源组织的分布式基础设施提供了分布式文件系统（HDFS）、分布式计算（MapReduce）和统一资源管理框架（yarn）的软件体系结构。用户可以在不了解分布式系统的基本细节的情况下开发分布式程序。

为大规模数据处理设计的快速通用计算引擎。用于构建大型、低延迟的数据分析应用程序。它可以用来完成各种操作，包括SQL查询、文本处理、机器学习等。

https://www.toutiao.com/i654015696262573648397/

感谢您的邀请

！请看下面的图片：

狭义的Hadoop，也就是原始版本：只有HDFS map reduce

未来会出现很多存储、计算和管理框架。

如果我们比较它们，我们可以比较Hadoop map reduce和spark，因为它们是用于大数据分析的计算框架。

Spark有许多线路组件，它们更强大、更快。

上一篇关键字super和this说法 super关键字的用法

下一篇数据库的笛卡尔乘积三个集合的笛卡尔乘积