跳到主要内容

17、Hadoop 入门:Hive-HQL

Hive —— HQL

Hive的操作语言HQL和SQL大同小异

数据库操作

-- 创建
CREATE DATABASE mydb;
-- 使用
USE mydb;
-- 删除
DROP DATABASE mydb;
-- 强制删除
DROP DATABASE mydb CASCADE;

创建表

-- 与SQL语句唯一的不同就是多了一个分割符
CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (
	col_name data_type [COMMENT col_comment],
	...)
[COMMENT table_comment]
[ROW FORMAT DELIMITED 
 	FIELDS TERMINATED BY ","
 	...];
 	
-- 查看元数据信息
desc formatted mytable;

-- 删除表
DROP table mytable;

Hive数据类型 对应Java数据类型
TINYINT byte
SMALINT short
INT int
BIGINT long
BOOLEAN boolean
FLOAT float
DOUBLE double
STRING string
TIMESTAMP (时间类型)
BINARY (字节数组)
MAP Map
ARRAY Array
STRUCT 类似c中的struct,用 . 访问

注释中文乱码

在远端的mysql中执行

-- 在mysql中执行
use hive;
-- 修改表字段注解和表注解
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
-- 修改分区字段注解
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;
-- 修改索引注解
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

添加数据

-- 加载数据
LOAD DATA [LOCAL] INPATH '文件路径' [OVERWRITE] INTO TABLE mytable;

-- 插入数据使用insert int用当作一个mapreduce去执行非常缓慢
-- 可以使用insert+select将一张表的数据部分插入到新表中,类似视图的创建
INSERT [OVERWRITE] TABLE mytable partition(dt='xxxxxx')select c1,c2 from src_table where......

查询数据

-- 单表查询
SELECT [ALL|DISTINCT] select_expr,select_expr,...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[HAVING having_condition]
[ORDER BY col_list]
[LIMIT [offset,]rows];

-- 连接查询
table_reference [INNER] JOIN table_factor [join_condition] -- 内连接
table_interface {left} [OUTER] JOIN table_reference join_condition	-- 左【外】连接 

常用函数

-- 查看所有可用函数
show functions;
-- 查看函数的使用方式
describe function extended func_name;

-- 字符串函数
select length("str");	-- 查询字符串长度
select reverse("str"); 	--反转字符串
select concat("str1","str2")	-- 字符串拼接
select concat_ws(separator,[string | array(string)]+) -- 以separator拼接
select substr("str",-2) 	-- 字符串截取,从1开始,负数从尾部开始
select substr("str",2,2) 	-- 从2开始,截取两个
select split("str1 str2",' ') -- 分割字符串

-- 日期函数
select current_data()	-- 获取当前日期
select unix_timestamp() -- 当前获取unix时间戳
select unix_timestamp("2222-02-02 02:02:02","yyyy-MM-dd HH:mm:ss") -- 日期转unix时间戳
select from_unixtime(0,"yyyy-MM-dd HH:mm:ss") -- 日期转时间戳
select datadiff("data1","data2") -- 日期比较函数,格式yyyy-MM-dd或yyyy-MM-dd HH:mm:ss
select data_add("data",2)	-- 日期增加函数
select data_sub("data",2)	-- 日期减少函数

-- 数学函数
select round(1.2345,3) 	-- 精度
select rand(int seed)	-- 取随机数

-- limit限制函数
select * from mytable limit 3;

-- if条件函数
select if(condition, TrueValue, FalseValue) from mytable;

-- 条件转换函数
select case col
when cond1 then xxx1
when cond2 then xxx2
else xxx3 end
from mytable;

-- 空值转换函数
select nvl(v1,v2) -- 若v1为空,用v2替换