2016 - 2024

感恩一路有你

hbase数据库存储的特点 用mapreduce怎么处理数据倾斜问题?

浏览量:2175 时间:2021-03-14 05:32:28 作者:admin

用mapreduce怎么处理数据倾斜问题?

调整参数

设置hive.map.aggr=真;

设置hive.groupby.skewindata=真

hive.map.aggr=真:部分聚合操作将在map中完成,这样效率更高,但需要更多内存。

hive.groupby.skewindata=真:数据倾斜时的负载平衡。当该选项设置为true时,生成的查询计划将有两个mrjob。在第一个mrjob中,map的输出结果集被随机分配到reduce中,每个reduce都进行部分聚合操作并输出结果,这样处理的结果就是可以将相同的groupby密钥分配给不同的reduce,从而达到负载均衡的目的;在第二个mrjob中,根据预处理后的数据结果,将相同的groupby密钥分发给不同的reduce密钥分发进行reduce(这个过程可以保证将相同的groupby密钥分发给相同的reduce),最后完成最终的聚合操作。

hbase数据库存储的特点 nosql数据库有哪四种类型 哪个数据库属于nosql

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。