Hive架构

　　Hive是一种以SQL风格进行任何大小数据分析的工具，其特点是采取类似关系数据库的SQL命令。其特点是通过 SQL处理Hadoop的大数据，数据规模可以伸缩扩展到100PB+，数据形式可以是结构或非结构数据。

　　Hive与传统关系数据库比较有如下几个特点：

侧重于分析，而非实时在线交易
无事务机制
不像关系数据库那样可以随机进行 insert或update.
通过Hadoop的map/reduce进行分布式处理，传统数据库则没有
传统关系数据库只能拓展最多20个服务器，而Hive可以拓展到上百个服务器。

　　Hive架构图如下：

hive

　　Hive目前支持的SQL数据类型和SQL语句如下：

INT
TINYINT/SMALLINT/BIGINT
BOOLEAN
FLOAT
DOUBLE
STRING
BINARY
TIMESTAMP
ARRAY, MAP, STRUCT, UNION
DECIMAL

SQL语法：

SELECT, LOAD, INSERT from query
Expressions in WHERE and HAVING
GROUP BY, ORDER BY, SORT BY
CLUSTER BY, DISTRIBUTE BY
Sub-‐queries in FROM clause
GROUP BY, ORDER BY
ROLLUP and CUBE
UNION
LEFT, RIGHT and FULL INNER/OUTER JOIN

　　在Hive中可使用Join语法，这是一般NoSQL的弱项，因为根据CAP定律，Join阻碍了分区，但是在Hive中Join的实现有其特殊性：

hive join

　　Hive的Join策略有三种，各有利弊：

Shuffle Join洗牌式：这是一种最慢的Join策略，用Map/reduce将Join的key洗牌，然后在reduce时再连接，适合任何大小的数据集。
Broadcast Join广播式：将所有服务器上的表数据加载到内存，Mapper通过一个大表扫描然后进行连接，优点很快，但是内存必须能容纳一个表的所有数据。
Sort- Merge- Bucket Join：对于任何数据大小都很快，缺点是数据需要首先排序或Bucket。Bucket 只是hive 的一种hash partition 的实现，如下图，将表数据预先分区，排桶bucket，倾斜skew：

hive bucket