hadoop与spark的区别与联系 hadoop和大数据的关系？和spark的关系？

浏览量：2146 时间：2021-03-11 12:14:54 作者：admin

hadoop和大数据的关系？和spark的关系？

大数据其实是一个比较庞大和广泛的概念，Hadoop是一个比较完整的大数据处理的批量数据存储、计算和分析框架。Spark可以理解为一个内存计算框架。现在很多主流的大数据平台都是在Hadoop的基础上进行优化和再开发的，spark一般都集成到Hadoop中进行流数据处理spark streaming

一定要在Hadoop集群上。它的数据源是HDFS，本质上是一个基于yarn的计算框架，就像先生一样

一般来说，主流行业的大数据技术Hadoop和spark都会用到。学习时，两个系统都会学习，先学习Hadoop，再学习spark。

Apache开源组织的分布式基础设施提供了分布式文件系统（HDFS）、分布式计算（MapReduce）和统一资源管理框架（yarn）的软件体系结构。用户可以在不了解分布式系统的基本细节的情况下开发分布式程序。

为大规模数据处理设计的快速通用计算引擎。用于构建大型、低延迟的数据分析应用程序。它可以用来完成各种操作，包括SQL查询、文本处理、机器学习等。

https://www.toutiao.com/i654015696262573648397/

感谢您的邀请

！请看下面的图片：

狭义的Hadoop，也就是原始版本：只有HDFS map reduce

未来会出现很多存储、计算和管理框架。

如果我们比较它们，我们可以比较Hadoop map reduce和spark，因为它们是用于大数据分析的计算框架。

Spark有许多线路组件，它们更强大、更快。

我认为您所说的Hadoop是map/reduce。主要区别如下：

1。Mr-Jobs的资源控制是通过yarn实现的。Spark是否可以通过纱线控制资源。但是，如果将多个组件设置在一起（例如，群集中同时存在spark计划和HBase查询），建议使用yarn；

2。Spark基于内存计算。计算的中间结果存储在内存中，可以访问行迭代计算；而Mr计算的中间结果是放到磁盘上，所以一个作业会涉及到对磁盘的重复读写，这也是性能不如spark的主要原因；

3。Mr的任务对应于一个容器，每次都需要花费大量的时间来启动。一些Hadoop版本（如华为oceaninsight）性能不同，Hadoop实现了容器预热（重用）功能，可能消耗较少，而spark是基于线程池的，因此资源分配会更快。

上一篇 java判断数组包含 java数组判断是否包含某元素

下一篇 testlab安装教程 testlab17详细安装教程