hdfs介绍

HDFS:我们至少应该学习以下内容

介绍

HDFS(The Hadoop Distributed File System),是被设计成适合运行在通用硬件(commodity hardware)上的 Hadoop 的分布式文件系统。它与其他的分布式系统有非常显著的不同,首先 HDFS 具有高容错性,并且它可以被部署到廉价的硬件上。此外,HDFS 提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。

HDFS架构图

HDFS架构图

名词解释


DataNode 中存储的不是单个文件,而是文件块(Block),在 HDFS 中,每个大文件会拆分成多个 Block,然后将这些 Block 散布存储在不同的 DataNode 中,并且每个 Block 会有多个复制,也会存储到其他的 DataNode中。

上图分别解释了“读”和“写”两种操作:

  • 当有客户端要向 HDFS 写入文件时,图中将文件拆分的 Block 写入到了两个机架的 DataNode 中,一般情况下就是两个机架的两个物理主机中,可以看出文件数据没有经过 NameNode。数据写入的过程见(“七、数据复制流水线”)
  • 当有客户端要从 HDFS 读取文件时,会将操作命令传向 NameNode,然后 NameNode 转为对应的数据块的操作,指挥相应的 DataNode 将所需数据返回给客户端。

注意
还有一个节点图中没有显示,叫作 Secondary Namenode,是辅助后台程序,主要负责与 NameNode 进行通信,定期保存 HDFS 元数据的快照及备份其他 NameNode 中的内容,日常 Standby,当 NameNode 故障时顶替 NameNode 使用。

NameNode & DataNodes

NameNode 与 DataNode 是 HDFS 系统的重要知识点。HDFS 是 master/slave 体系结构。一个 HDFS 集群是由单个 NameNode 和众多 DataNode 组成,文件会被分成一个或多个块,这些块存储在一组 DataNode 中。

因为 HDFS是用 Java 语言搭建的,所以只要是支持 Java 语言的机器都可以运行 NameNode 和 DataNode。并且因为 Java 的高可移植性,HDFS 也具有非常广泛的应用范围。一种典型的 HDFS 部署模式是指定一个物理主机运行 NameNode,然后其余的机器运行 DataNode,在实际部署情况中,一般都是一台主机部署一个 DataNode。

群集中存在单个 NameNode 极大地简化了系统的体系结构。 NameNode 是所有 HDFS 元数据的决定者和存储库。系统的这种设计使用户数据永远不会流经 NameNode,可理解 NameNode 为整个系统的中枢。

NameNode

NameNode(nn) 是管理文件系统命名空间的Master(主服务器),用于管理客户端对文件的访问,执行文件系统命名空间操作,如打开,关闭和重命名文件和目录。

管理HDFS的名称空间
配置副本策略
管理数据块(Block) 映射信息
处理客户端的读写请求
NameNode 做着有关块复制的所有决定,它定期从群集中的每个 DataNode 接收 Heartbeat 和 Blockreport。收到 Heartbeat 意味着 DataNode正常运行,Blockreport 包含 DataNode 上所有块的列表。

DataNode

DataNode 是Slave。通常是群集中每个节点一个,用于存储数据,负责提供来自文件系统客户端的读写请求。NameNode下达命令,DataNode执行实际的操作。如执行块创建,删除和复制。

存储实际的数据块
执行数据库的读/写操作