Hive 分区

Hive将表组织到分区中。这是一种基于分区列的值（例如日期，城市和部门）将表划分为相关部分的方法。使用分区，很容易查询一部分数据。

表或分区被细分为存储桶，以为数据提供额外的结构，这些数据可用于更有效的查询。存储桶基于表某列的哈希函数的值进行工作。

例如，名为Tab1的表包含员工数据，例如id，姓名，部门和年龄（即加入的年份）。假设您需要检索所有2019年加入的员工的详细信息。查询将在整个表中搜索所需的信息。但是，如果按年份对员工数据进行分区并将其存储在单独的文件中，则会减少查询处理时间。以下示例显示如何对文件及其数据进行分区：

以下文件包含employeedata表。

/tab1/employeedata/file1


id, name, dept, yoj
1, gopal, TP, 2019
2, kiran, HR, 2019
3, kaleel,SC, 2013
4, Prasanth, SC, 2013

/tab1/employeedata/2019/file2


1, gopal, TP, 2019
2, kiran, HR, 2019

/tab1/employeedata/2013/file3


3, kaleel,SC, 2013
4, Prasanth, SC, 2013

添加分区

我们可以通过更改表将分区添加到表中。让我们假设我们有一个名为employee的表，其中包含Id，Name，Salary，Designation，Dept和yoj等字段。

句法：

   
ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;

partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)

以下查询用于将分区添加到employee表。


hive> ALTER TABLE employee
> ADD PARTITION (year=’2019’)
> location '/2019/part2019';

重命名分区

该命令的语法如下。


ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

以下查询用于重命名分区：


hive> ALTER TABLE employee PARTITION (year=’1203’)
   > RENAME TO PARTITION (Yoj=’1203’);

删除分区

以下语法用于删除分区：


ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec, PARTITION partition_spec,...;

以下查询用于删除分区：

以下语法用于删除分区：


hive> ALTER TABLE employee DROP [IF EXISTS]
   > PARTITION (year=’1203’);