hadoop有哪三种安装模式 伪分布式的spark/mapreduce是只供用来学习的吗?
伪分布式的spark/mapreduce是只供用来学习的吗?
首先,MapReduce出现得更早。介绍了分布式大数据处理的基本思想。现在我在学习火花。Matei zaharia的毕业论文,即spark的介绍论文,已在CSDN上翻译成中文。
建议先学习MapReduce,主要是了解任务是如何执行的。都在网上。然后,spark学习应该关注于理解spark-to-SQL语句的执行机制。
不同的分布式框架有各自的优势和不同的业务场景。MapReduce可以更好地处理大量ETL服务,而spark则相对更侧重于机器学习。对于企业来说,如果这些业务能够在同一个集群上运行,就可以有效地降低成本。为了让不同的框架同时在同一个集群中运行,最重要的问题是如何分配资源。当没有纱线时,一个相对简单的方法是假设集群中有100台机器。我们将50台机器分配给spark,将其他50台机器分配给MapReduce。这似乎没什么问题。不过,如果我们每天只运行一个小时的MapReduce,其余大部分时间都在运行spark,那么一天就有23个小时,50台机器处于空闲状态,而spark的机器很可能有大量作业在队列中。这显然不是一种非常有效的使用集群的方法。
MapReduce和Spark主要解决哪些方面的问题?
:MapReduce采用了“分而治之”的思想。简而言之,MapReduce就是“任务分解和结果汇总”。
.
Spark是在MapReduce的基础上开发的。它具有hadoopmapreduce的优点。Spark是MapReduce的替代品,与HDFS和hive兼容。它可以集成到Hadoop生态系统中,以弥补MapReduce的不足。
加米谷大数据开发培训,6月零基础课预测,提前预测惊喜
! https://www.toutiao.com/i6692992593413800456/
hadoop有哪三种安装模式 基于hadoop的课程设计 启动hadoop的命令
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。