1200字范文 > 【学习笔记】尚硅谷Hadoop大数据教程笔记

【学习笔记】尚硅谷Hadoop大数据教程笔记

时间：2022-11-24 01:16:41

本文是尚硅谷Hadoop教程的学习笔记，由于个人的需要，只致力于搞清楚Hadoop是什么，它可以解决什么问题，以及它的原理是什么。至于具体怎么安装、使用和编写代码不在我考虑的范围内。

一、Hadoop入门

大数据的特点：

Volume（大量）Velocity（高速）Variety（多样）Value（低价值密度）

1. Hadoop概念

是一个分布式系统基础架构

2. Hadoop优势

高可靠高扩展性高效性高容错性

3. Hadoop组成

(1) HDFS架构概述

HDFS（Hadoop Distributed File System）是一个分布式文件系统

NameNode（NN）：存储文件的元数据，如文件名、文件目录结构、文件属性，以及每个文件的块列表和块所在的DataNode等。DataNode（DN）：在本地文件系统存储文件块数据，以及块数据的校验和。Secondary NameNode（2NN）：每隔一段时间对NameNode元数据备份。

(2) YARN架构概述

YARN（Yet Another Resource Negotiater）：另一种资源协调者，是Hadoop的资源管理器。

ResourceManager（RM）：整个集群资源（内存、CPU等）的管理者NodeManager（NM）：单个节点服务器资源管理者ApplicationMaster（AM）：单个任务运行的管理者Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等

说明：

客户端可以有多个集群上可以运行多个ApplicationMaster每个NodeManager上可以有多个Container

(3) MapReduce架构概述

MapReduce将计算拆成两个阶段：Map和Reduce

Map阶段并行处理输入数据Reduce阶段对Map结果进行汇总

(4) HDFS、YARN、MapReduce三者关系

4. 大数据技术生态体系

二、HDFS

1. 概述

(1) 优缺点

优点：

高容错性：一个数据会自动保存多个副本，某个副本丢失后，它可以自动恢复适合处理大数据：无论是数据规模还是文件数量规模大都可以处理可构建在廉价的机器上

缺点：

不适合低延迟的数据访问：如毫秒级的存储数据是做不到的无法高效地对大量小文件进行存储：存储大量小文件时，会占用NameNode大量内存去存储文件目录信息和块信息，而NameNode的内存是有限的小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标不支持并发写入和文件的随机修改不允许多个线程同时写同一文件仅支持数据追加，不支持随机修改

(2) 组成

NameNode（NN）：就是Master，它是一个主管、管理者，其功能是：

管理HDFS的名称空间配置副本策略管理数据块的映射信息处理客户端读写请求

DataNode（DN）：就是Slave，NameNode下达命令，DataNode执行具体操作，其功能是：

存储实际数据块执行数据块的读写操作

Secondary NameNode（2NN）：并非NameNode的热备，当NameNode挂掉时，它并不能马上替换NameNode并提供服务，其功能是：

辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode在紧急情况下，可辅助恢复NameNode

Client：就是客户端，其功能是：

文件切分，当文件上传HDFS时，将文件切分为一个个块，并进行上传与NameNode交互，获取文件的位置信息与DataNode交互，读取或写入数据提供一些命令来管理HDFS，如NameNode格式化通过命令来访问HDFS，如对NameNode的增删改查操作

(3) 文件块大小

在Hadoop1.x中文件块大小默认为64M，而在2.x和3.x中为128M。当寻址时间为传输时间的1%时为最佳状态。文件块的大小太小，则会导致大文件被分割成太多块，增加寻址时间。而文件块大小太大，则会使得传输时间远大于寻址时间。文件块的大小主要取决于磁盘的传输速率。

2. HDFS的读写流程

(1) 剖析文件的写入

(2) 网络拓扑-节点距离计算

节点距离：两个节点到达最近公共祖先的距离之和

(3) 机架感知-副本存储节点总结

第一个副本存储在客户端所在的节点上，如果客户端在集群外，则随机选一个。

第二个副本在另一个机架的随机节点上。

第三个副本在第二个副本所在机架的随机节点上。

(4) 剖析文件的读取

3. NN和2NN

4. fsimage和edits概念

fsimage文件：HDFS文件系统元数据的一个永久性检查点，其中包含HDFS文件系统所有的目录和文件innode的序列号信息

edits文件：存放HDFS文件系统所有更新操作的路径，文件系统客户端所执行的所有写操作首先会被记录在edits文件中

seen_txid文件：保存的是一个数字，就是最后一个edits_的数字

5. DataNode工作机制

三、MapReduce

1. MapReduce概述

(1) 定义

MapReduce是一个分布式运算程序的编程框架

MapReduce核心思想：

(2) 优缺点

优点：

易于编程。用户只需要关心业务逻辑良好的扩展性。可以动态增加服务器，解决计算资源不够的问题高容错性。任何一台集群挂掉，可以将任务转移到其他节点适合海量数据计算（TB/PB）。几千台服务器共同计算

缺点：

不擅长实时计算。MySQL擅长不擅长流式计算。Flink擅长不擅长DAG有向无关图计算。Spark擅长

2. 编程规范

用户编写的程序分为3个部分：Mapper、Reducer和Driver

(1) Mapper阶段

用户自定义的Mapper要继承自己的父类Mapper的输入是键值对的形式Mapper中的业务逻辑写在map()方法中Mapper的输出是键值对的形式map()方法对每一个<K, V>调用一次

(2) Reducer阶段

用户自定义的Reducer要继承自己的父类Reducer的输入类型与Mapper的输入类型相对应Reducer的业务逻辑写在reduce()方法中ReduceTask进程对每一组相同的<K, V>调用一次reduce()方法

(3) Driver阶段

相当于Yarn集群的客户端，用于提交整个程序到Yarn集群，提交的是封装了MapReduce程序相关运行参数的job对象

3. 核心框架原理

(1) 输入数据处理InputFormat

切片与MapTask并行度决定机制：MapTask的并行度决定Map阶段任务处理并发度，进而影响到整个job的处理速度。

数据块（block）是物理上把数据分成一块一块的，数据块是HDFS数据存储单位。

数据切片只是在逻辑上对输入数据进行分片，数据切片是MapReduce程序计算输入数据的单位。一个切片会对应启动一个MapTask。

TextInputFormat切片机制

一个job的map阶段并行度由提交job时的切片数决定。

每一个切片分配一个MapTask并进行处理

默认情况下切片大小等于块大小

切片时不考虑数据集整体，而是对每个文件单独切片

CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。

应用场景：

Combine TextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。

生成切片过程包括虚拟存储过程和切片过程二部分。首先判断虚拟存储的文件大小是否大于setMaxInputSplitSize值，大于等于则单独形成一个切片。如果不大于则跟下一个虚拟存储文件进行合并，共同形成一个切片。

MapReduce工作流程：

(2) Shuffle

map方法之后，reduce方法之前的数据处理过程称为shuffle（混洗）。

Combiner是MR程序中Mapper和Reducer之外的一种组件

Combiner和Reducer的区别在于运行的位置不同，Combiner在每个MapTask所在的节点运行，Reducer是接收全局所有Mapper的输出结果

Combiner的意义是对每个MapTask的输出进行局部汇总，以减小网络传输量

Combiner能够应用的前提是不能影响最终业务逻辑

(3) 输出数据处理OutputFormat

MapTask工作机制：

ReducerTask工作机制；

ReduceTask的并行度同样影响整个Job的执行并发度和执行效率，但与MapTask的并发数由切片数决定不同，ReduceTask 数量的决定是可以直接手动设置

(1) ReduceTask=0, 表示没有Reduce阶段, 输出文件个数和Map个数一致

(2) ReduceTask默认值就是 1,所以输出文件个数为一个

(3)如果数据分布不均匀，就有可能在Reduce阶段产生数据倾斜

(4) Reduce Task数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有1个Reduce Task

(5)具体多少个ReduceTask, 需要根据集群性能而定

(6)如果分区数不是1,但是ReduceTask为1，是否执行分区过程。答案是:不执行分区过程。因为在MapTask的源码中，执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行

(5) 数据清洗（ETL）

“ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。