spark必须基于hadoop吗 用于开发hadoop,spark等大数据的电脑需要什么配置?
用于开发hadoop,spark等大数据的电脑需要什么配置?
首先,在开发阶段,您使用的数据量非常小,只有几十兆字节。您可以将其完全加载到内存中,并且不会使用几GB的数据。一般来说,8g的内存足够一台电脑用。如果需要搭建自己的虚拟机群,自己玩、自己研究,内存应该很大,最少16g,最少1t硬盘。Spark cluster对每个节点的内存要求很高,最少2G,所以内存比较大。我的电脑有32g内存,每个节点都有3G内存,8个节点,还可以,而且风扇也很响。
在hadoop和spark之间如何取舍?
一般来说,会用到主流行业的大数据技术Hadoop和spark。学习时,两个系统都会学习,先学习Hadoop,再学习spark。
Apache开源组织的分布式基础设施提供了分布式文件系统(HDFS)、分布式计算(MapReduce)和统一资源管理框架(yarn)的软件体系结构。用户可以在不了解分布式系统的基本细节的情况下开发分布式程序。
为大规模数据处理设计的快速通用计算引擎。用于构建大型、低延迟的数据分析应用程序。它可以用来完成各种操作,包括SQL查询、文本处理、机器学习等。
https://www.toutiao.com/i654015696262573648397/
spark必须基于hadoop吗 大数据spark和hadoop hadoopspark什么意思
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。