spark架构原理与集群搭建运行模式 pyspark拥有几种启动模式?
pyspark拥有几种启动模式?
本地模式
Spark单机正常运行,一般应用于变更土地性质测试。
Standalone模式
构建体系一个由MasterSlave近似的Spark集群,Spark运行程序在集群中。
SparkoffYarn模式
Spark客户端就连接到Yarn。不不需要额外构建体系Spark集群。
SparkontoMesos模式
400G数据需要分配多少spark内存?
1、未分配哪些资源?
executor、coreperexecutor、memoryperexecutor、drivermemory2、哪分配这些资源?
在我们在生产环境中,再提交spark作业时,带的spark-approveshell脚本,里面调整随机的参数/usr/local/spark/bin/spark-submit--class--num-executors3配置executor的数量--executor-memory100m配置每个executor的内存大小--executor-cores3配置每个executor的cpucore数量--driver-memory100m配置driver的内存(影响不大很小)/usr/region/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar3、调节平衡到多大,不算大呢?
第一种,SparkStandalone,公司集群上,重新搭建了一套Spark集群,你心里应该很清楚每台机器还也能给你使用的,大概有多少内存,多少cpucore;这样,设置中的时候,就据这个换算的情况,去可以调节每个spark作业的资源分配。假如你的每台机器都能够给你建议使用4G内存,2个cpucore;20台机器;executor,20;平均每个executor:4G内存,2个cpucore。第二种,Yarn。资源队列。资源调度。肯定去查看,你的spark作业,要递交到的资源队列,hadoopsparkstorm每一个队列也有各自的资源(cpumem)也差不多有多少资源?500G内存,100个cpucore;executor,50;来算每个executor:10G内存,2个cpucore。Spark-completed的时候怎莫指定你资源队列?--confspark.yarn.queuedefault可以设置队列名称:spark.yarn.queuedefault一个原则,你能在用的资源有多大,就最好不要去调节平衡到的最的大小(executor的数量,五六个到上百个随后;executor内存;executorcpucore)
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。