1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > Hadoop学习笔记--Hadoop生态系统 体系架构及特点

Hadoop学习笔记--Hadoop生态系统 体系架构及特点

时间:2023-11-26 10:40:27

相关推荐

Hadoop学习笔记--Hadoop生态系统 体系架构及特点

文章目录

引言1.Hadoop的特点1.1 高可用性1.2 高扩展性1.3 高效性1.4 高容错性1.5 低成本1.6 支持多种平台1.7 支持多种编程语言 2.Hadoop的生态系统2.1 HDFS2.2 MapReduce2.3 YARN 3.Hadoop的体系架构总结

引言

Hadoop是Apache基金会旗下的一个可靠的、可扩展的分布式计算开源软件框架,旨在从单一服务器扩展到成千上万台机器,每台机器都提供本地计算和存储,且将数据备份在多个节点上,以此提升集群的高可用性,它允许用户使用简单的编程模型在廉价的计算机集群上对大规模数据集进行分布式处理。

1.Hadoop的特点

1.1 高可用性

由于采用冗余数据存储方式,一个副本故障仍然可以正常运行;

1.2 高扩展性

可以将分布式集群部署在廉价的计算机集群上,高效稳定的工作,方便添加机器节点;

1.3 高效性

Hadoop平台可以高效处理PB级数据;

1.4 高容错性

Hadoop采用冗余数据存储方式,某一节点出现错误时,系统自动调用其他节点上的备份文件;

1.5 低成本

开源、可部署在廉价的计算机集群上;

1.6 支持多种平台

支持windows和GNU/Linux平台;

1.7 支持多种编程语言

可用Java和C++编写;

2.Hadoop的生态系统

2.1 HDFS

HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统,具有高容错性,可部署在廉价机器上,提供高吞吐量的数据访问,为大数据的存储提供了保障。

2.2 MapReduce

Hadoop MapReduce是一个分布式的、并行处理的编程模型,利用函数式编程式思想,提供Map和Reduce函数编写,实现复杂的集群并行运算。其中Map是对可以并行处理的小数据集进行本地计算并输出中间结果,Reduce是对各个Map的输出结果进行汇总计算得到最终结果。

2.3 YARN

YARN(Yet Another Resource Negotiator)是统一资源管理和调度框架

3.Hadoop的体系架构

Hadoop集群采用主从架构(Master/Slave),NameNode和ResourceManager为Master,DateNode和NodeManager为Slave,守护进程NameNode和DataNode负责完成HDFS的工作,守护进程ResourceManager和NodeManager则负责完成YARN的工作。

总结

以上就是Hadoop的特点、集群架构和体系架构了,欢迎大家在评论区补充!

参考《Hadoop大数据原理与运用》徐鲁辉

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。