大数据学习-2 认识Hadoop

一.什么是Hadoop？

Hadoop可以简单的理解为一个数据存储和数据分析分布式系统。随着互联网的普及产生的数据是非常的庞大的，那么我们怎么去处理这么大量的数据呢？传统的单一计算机肯定是完成不了的，那么大体的出路只有两条，第一种是研究更牛逼的计算机（比如说超级计算机和量子计算机），但是超级计算机和量子计算机研究耗费的时间和金钱是难以想象的，第二条就是集群计算（数据量巨大一台计算机不行，我一百台，一万台计算机处理总可以了吧？）那么Hadoop就是后者。

Hadoop并不是去强化某一台计算机的计算能力而是去解决一百台、一万台计算机集群计算时的故障和异常，为这一百台、一万台计算机集群计算提供可能性服务。在简单来说就是Hadoop就是让这么多计算机一起去处理一批数据，保证数据在这么多的机子上还不出错。

二.Hadoop的发展历史

在这里我们不得不去提一下Apache软件基金会，他是一个是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中，所发行的软件产品都遵循Apache许可证（Apache License）。

那么Hadoop就是在这个基金会下诞生的。

最开始我们还是要讲到谷歌，谷歌为了摆脱IOE(IBM小型机、Oracle数据库以及EMC存储)就创建了他们的GFS（Google File System）也是一个文件分布式系统，并发表了三篇分别有关与GFS、MapReduce、BigTable的论文但是没有开源GFS的核心技术。然后在论文的指导下Doug Cutting（Hadoop之父）对其做了开发并且开源。最后Apache软件基金会对Doug Cutting的开发和其他公司的开发其进行了整合完善推出了Hadoop。

三.为什么要使用Hadoop？

3.1开始我们一定会有这样的问题就是为什么MySQL、Oracle等等数据库不能满足大量的数据的查询呢？

首先传统的数据库底层还是对磁盘的一个读写操作，那么读写操作就要涉及到一个寻找地址的操作，但是这个寻址操作是十分耗费时间的（虽然在数据库上有很多的优化包括索引操作等等），那么读取大量数据的时候这个时间必然会很长（再好的算法在合理的数据结构设计还是会去遍历数据）。

在一个就是就是更改数据库操作，对于有大量的数据数据库我们去更新它的时候往往会增加这个数据库的压力，而且效率较为低下。

3.2那么传统的数据库在大数据（PB级别 1PB=1024TB）存在一定的缺陷那么我们该怎么去解决呢？

现在我们就要引入MapReduce这个概念，首先来了解一下MapReduce，在后面我们会详细的去学习Hadoop中的MapReduce，MapReduce的简单介绍如下：

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。（其实我现在也不太懂MapReduce这个编程模型，但是通过我们后期的学习一定可以搞懂）

那么我么来对比一下他们MapReduce和传统的关系型数据库的对比

3.3MapReduce的三大设计目标

1.服务于只需要短短几分钟或者几个小时就可以完成任务

2.运行于同一个内部有高速网络连接的数据中心内

3.数据中心内部的计算机都是可靠的专门的硬件

四.部分专业名词介绍

4.1MapReduce中的专业名词

job：一个MapReduce程序就是一个job。

task:在一个job中可以有多个task，task可以是Map Task,Reduce Task,这个task就是每个节点计算机的计算任务。

HDFS:Hadoop分布式文件系统（Hadoop distributed file system）

Namenode：它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)，没有namenode那么HDFS就不能运行

Secondary Namenode：主要作用是定期的将Namespace镜像与操作日志文件(edit log)合并，以防止操作日志文件(edit log)变得过大，如果namenode宕机了，secondary namenode中的文件就会用的上。大多数情况下会与NFS远程挂载。

DateNode:Datanode是文件系统的工作节点，他们根据客户端或者是namenode的调度存储和检索数据，并且定期向namenode发送他们所存储的块(block)的列表。集群中的每个服务器都运行一个DataNode后台程序，这个后台程序负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个数据时，先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作，然后，客户端直接与这个DataNode服务器上的后台程序进行通信，并且对相关的数据块进行读/写操作。

JobTracker：负责任务的管理和调度（一个hadoop集群中只有一台JobTracker）

TaskTracker：负责执行工作,在DataNode节点上执行（Map函数和Reduce函数运行的节点）

五.理解MapReduce

5.1MapReduce高度抽象

将多台计算机联合起来处理一个问题那么这个过程一定是相当复杂的，但是Hadoop将其高度的抽象了，他只需要程序员去编写map函数和reduce函数即可。

5.2MapReduce的工作流

图片来自：https://blog.csdn.net/chaojixiaozhu/article/details/78931413

5.3map任务和reduce任务作用介绍

map任务将其输出写入本地硬盘，而非HDFS。这是为什么？因为map的输出是中间结果：该中间结果由reduce任务处理后才产生最终输出结果，而且一旦作业完成，map的输出结果就可以删除。因此，如果把它存储在HDFS中并实现备份，难免有些小题大做。如果该节点上运行的map任务在将map中间结果传送给reduce任务之前失败，Hadoop将在另一个节点上重新运行这个map任务以再次构建map中间结果。

reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有mapper的输出。在本例中，我们仅有一个reduce任务，其输入是所有map任务的输出。因此，排过序的map输出需通过网络传输发送到运行reduce任务的节点。数据在reduce端合并，然后由用户定义的reduce函数处理。reduce的输出通常存储在HDFS中以实现可靠存储。对于每个reduce输出的HDFS块，第一个副本存储在本地节点上，其他副本存储在其他机架节点中。因此，将reduce的输出写入HDFS确实需要占用网络带宽，但这与正常的HDFS流水线写入的消耗一样。（该部分截取自 https://blog.csdn.net/universe_ant/article/details/56494398）