hive菜鸟教程如何通俗地理解Hive的工作原理？

浏览量：1967 时间：2021-04-07 18:56:15 作者：admin

如何通俗地理解Hive的工作原理？

有一个大仓库，里面有10000个箱子。现在我们需要把这些箱子搬到门对面的仓库。

我们可以让一个工人先移动它。如果我们每分钟移动一个，需要一万分钟。

现在我们找到了一个速度更快的工人，他可以在半分钟内移动一个。因此，它将在5000分钟内完成。当然很棒，比如说，让工人移动得更快，比如说，20秒移动一个？

但总有一个极限。毕竟，搬一个箱子很辛苦。这并不容易。

您还需要多少工人？例如，让我们找100个工人。快一点吗？

但是，还涉及到另一个问题。虽然工作的人多了，但只有一扇门，100名工人挤在一起。虽然人多了，但效率没有多大提高。许多人在门口等着。

玩过魔兽的人都知道，如果矿主太多，会有人在矿场外等着，所以如果每个矿场有5个以上的矿主，采矿速度不会提高。

那又怎样？在游戏中，我们可以开一个新的矿井，这样每个矿井可以分成5个农户来开采。

对于相应的仓库，我们可以多开几扇门。例如，我们可以打开100个门，并为每个门分配几个工人。这样，我们能更快更同步地移动箱子吗？

这就是蜂巢中的map和reduce的原理。

当然，这只是一个非常粗略的陈述，它还涉及许多细节，例如如何在工人之间分配工作？如何将数据切割成“盒子”，如何将其堆放在新仓库中，如何开门，如何按顺序移动？

1. HBase：基于Hadoop数据库，是NoSQL数据库；HBase表是物理表，适合存储非结构化数据。

2. Hive：它不存储数据，而是依赖HDFS和MapReduce，通过SQL计算和处理HDFS上的结构化数据；Hive中的表是纯逻辑表。

这两者通常一起使用。

1. HBase：实时随机查询海量详细数据，存储采集到的web数据；

2。配置单元：适用于离线批量数据计算，一般用于查询分析和统计。

上一篇 slx教程 c++教程

下一篇新浪微博个人域名怎么看别人的微博域名