安装spark必须安装hadoop吗 spark软件是哪家公司的?
spark软件是哪家公司的?
是UC BerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,具备Hadoop MapReduce所具高的优点;但不只是MapReduce的是——Job中间输出结果可以保存到在内存中,进而继续不需要读写HDFS,而Spark能更合适地范围问题于数据挖掘与机器学习等要迭代的MapReduce的算法。
400G数据需要分配多少spark内存?
1、怎么分配哪些资源?
executor、coreperexecutor、memoryperexecutor、drivermemory2、在哪里怎么分配这些资源?
在我们在生产环境中,并提交spark作业时,用的spark-receiveshell脚本,里面调整随机的参数/usr/sources/spark/bin/spark-submit--class--num-executors3配置executor的数量--executor-memory100m配置每个executor的内存大小--executor-cores3配置每个executor的cpucore数量--driver-memory100m配置driver的内存(影响大不大)/usr/policies/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar3、适当调节到多大,可以算的最呢?
第一种,SparkStandalone,公司集群上,堆建了一套Spark集群,你心里应该要知道每台机器还都能够给你使用的,也差不多有多少内存,多少cpucore;那就,设置的时候,就依据这个求实际的情况,去功能调节每个spark作业的资源分配。比如你的每台机器都能够给你使用4G内存,2个cpucore;20台机器;executor,20;来算每个executor:4G内存,2个cpucore。第二种,Yarn。资源队列。资源调度。应该要去打开系统,你的spark作业,要重新提交到的资源队列,hadoopsparkstorm每一个队列都有各自的资源(cpumem)大概有多少资源?500G内存,100个cpucore;executor,50;平均每个executor:10G内存,2个cpucore。Spark-submit的时候怎摸指定你资源队列?--confspark.yarn.queuedefault设置队列名称:spark.yarn.queuedefault一个原则,你能建议使用的资源有多大,就不要去调节平衡到大的的大小(executor的数量,七八个到上百个不等;executor内存;executorcpucore)
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。