hadoop多个job 浅谈Spark和Hadoop作业之间的区别？

浏览量：1311 时间：2021-03-13 10:57:20 作者：admin

浅谈Spark和Hadoop作业之间的区别？

我认为你所说的Hadoop是map/reduce。主要区别如下：

1。Mr-Jobs的资源控制是通过yarn实现的。Spark是否可以通过纱线控制资源。但是，如果将多个组件设置在一起（例如，群集中同时存在spark计划和HBase查询），建议使用yarn；

2。Spark基于内存计算。计算的中间结果存储在内存中，可以访问行迭代计算；而Mr计算的中间结果是放到磁盘上，所以一个作业会涉及到对磁盘的重复读写，这也是性能不如spark的主要原因；

3。Mr的任务对应于一个容器，每次都需要花费大量的时间来启动。一些Hadoop版本（如华为oceaninsight）性能不同，Hadoop实现了容器预热（重用）功能，可能消耗较少，而spark是基于线程池的，因此资源分配会更快。

上一篇 linux怎么截屏ubuntu ubuntu菜鸟使用教程

下一篇微信怎么上传长视频微信大于5分钟的视频怎么发