hive菜鸟教程 如何通俗地理解Hive的工作原理?
如何通俗地理解Hive的工作原理?
有一个大仓库,里面有10000个箱子。现在我们需要把这些箱子搬到门对面的仓库。
我们可以让一个工人先移动它。如果我们每分钟移动一个,需要一万分钟。
现在我们找到了一个速度更快的工人,他可以在半分钟内移动一个。因此,它将在5000分钟内完成。当然很棒,比如说,让工人移动得更快,比如说,20秒移动一个?
但总有一个极限。毕竟,搬一个箱子很辛苦。这并不容易。
您还需要多少工人?例如,让我们找100个工人。快一点吗?
但是,还涉及到另一个问题。虽然工作的人多了,但只有一扇门,100名工人挤在一起。虽然人多了,但效率没有多大提高。许多人在门口等着。
玩过魔兽的人都知道,如果矿主太多,会有人在矿场外等着,所以如果每个矿场有5个以上的矿主,采矿速度不会提高。
那又怎样?在游戏中,我们可以开一个新的矿井,这样每个矿井可以分成5个农户来开采。
对于相应的仓库,我们可以多开几扇门。例如,我们可以打开100个门,并为每个门分配几个工人。这样,我们能更快更同步地移动箱子吗?
这就是蜂巢中的map和reduce的原理。
当然,这只是一个非常粗略的陈述,它还涉及许多细节,例如如何在工人之间分配工作?如何将数据切割成“盒子”,如何将其堆放在新仓库中,如何开门,如何按顺序移动?
hbase和hive的差别是什么,各自适用在什么场景中?
1. HBase:基于Hadoop数据库,是NoSQL数据库;HBase表是物理表,适合存储非结构化数据。
2. Hive:它不存储数据,而是依赖HDFS和MapReduce,通过SQL计算和处理HDFS上的结构化数据;Hive中的表是纯逻辑表。
这两者通常一起使用。
1. HBase:实时随机查询海量详细数据,存储采集到的web数据;
2。配置单元:适用于离线批量数据计算,一般用于查询分析和统计。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。