Hadoop整理五（基于Hadoop的数据仓库Hive）

　　数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

　　数据仓库和数据库的区别：

　　1. 逻辑层面/概念层面：数据库和数据仓库其实是一样的或者及其相似的，都是通过某个数据库软件，基于某种数据模型来组织、管理数据。但是，数据库通常更关注业务交易处理（OLTP），而数据仓库更关注数据分析层面（OLAP），由此产生的数据库模型上也会有很大的差异。数据库通常追求交易的速度，交易完整性，数据的一致性，等等，在数据库模型上主要遵从范式模型（1NF，2NF，3NF，等等），从而尽可能减少数据冗余，保证引用完整性；而数据仓库强调数据分析的效率，复杂查询的速度，数据之间的相关性分析，所以在数据库模型上，数据仓库喜欢使用多维模型，从而提高数据分析的效率。
　　2. 产品实现层面：数据库和数据仓库软件是有些不同的，数据库通常使用行式存储，如SAP ASE，Oracle, Microsoft SQL Server，而数据仓库倾向使用列式存储，如SAP IQ，SAP HANA

　　Hive的数据由两部分组成：数据文件和元数据。元数据用于存放Hive库的基础信息，它存储在关系数据库中，如 mysql、derby。元数据包括：数据库信息、表的名字，表的列和分区及其属性，表的属性，表的数据所在目录等。

　　Hive体系结构-Hive的运行机制：
　　 用户通过用户接口连接Hive,发布Hive SQL。
　　 Hive解析查询并制定查询计划。
　　 Hive将查询转换成MapReduce作业。
　　 Hive在Hadoop上执行MapReduce作业。

　　托管表和外部表
　　数据存储：
　　托管表：数据存储在仓库目录下。
　　外部表：数据存储在任何HDFS目录下。
　　数据删除
　　托管表：删除元数据和数据。
　　外部表：只删除元数据。

Hadoop整理五（基于Hadoop的数据仓库Hive）的相关教程结束。

《Hadoop整理五（基于Hadoop的数据仓库Hive）.doc》

下载本文的Word格式文档，以方便收藏与打印。

Hadoop整理五（基于Hadoop的数据仓库Hive）

Hadoop整理五（基于Hadoop的数据仓库Hive）的相关教程结束。

相关推荐

hive表数据存储在哪里

mysql数据怎么导入hive中

hadoop和hive的区别有哪些

hadoop怎么查询sqoop中的数据

hbase和hive有什么区别和联系

hadoop中怎么实现tool接口

hadoop去重的工作原理是什么

hadoop去重的方法有哪些