数据库其它

Hive新手学习资料之Hive入门与实战.+Hive用户手册+hive函数大全中文版打包

大小：8MB 时间：2024-12-07

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

为方便大家学习，脚本之家小编特打包了

Hive入门与实战.pdf
hive函数大全.doc
Hive用户手册中文版.pdf
Hive用户指南-V1.1.doc

Hive是什么

Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理，Hadoop提供了主要的扩展和容错能力。

Hive设计的初衷是：对于大量的数据，使得数据汇总，查询和分析更加简单。它提供了SQL，允许用户更加简单地进行查询，汇总和数据分析。同时，Hive的SQL给予了用户多种方式来集成自己的功能，然后做定制化的查询，例如用户自定义函数（User Defined Functions，UDFs).

Hive不适合做什么
Hive不是为在线事务处理而设计。它最适合用于传统的数据仓库任务。

为什么使用Hive

面临的问题
人员学习成本太高
项目周期要求太短
我只是需要一个简单的环境
MapReduce如何搞定
复杂查询好难
Join如何实现
为什么要使用Hive
操作接口采用类SQL语法，提供快速开发的能力。
避免了去写MapReduce，减少开发人员的学习成本。
扩展功能很方便。

Hive的特点

可扩展
Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。
延展性
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
容错
良好的容错性，节点出现问题SQL仍可完成执行。