Hadoop 使用SecondaryNameNode进行故障恢复

2019-01-29 张子阳分类: 大数据处理

SecondaryNameNode的作用不是做高可用，它是NameNode的一个辅助进程，用来合并fsimage和edits日志文件。但是，因为它保存了NameNode上元数据的副本(fsimage和edits)，所以当NameNode出现故障时，可以使用它来做临时的NameNode，从而实现NameNode的故障恢复。这篇文章将记录如何实现这一过程。

NameNode和SecondaryNameNode的作用

简单来说，NameNode保存了集群的元信息：例如命名空间信息、块信息、存储位置等。这些信息以文件的形式保存在磁盘上，其位置由 $HADOOP_HOME/etc/hadoop/hdfs-site.xml中的 dfs.namenode.name.dir 节点定义，默认位置是：file://${hadoop.tmp.dir}/dfs/name。

上面的${hadoop.tmp.dir}是hadoop的文件目录，它定义在core-site.xml文件的hadoop.tmp.dir节点。本文使用的是 /data/hadoop。

在我测试的机器上，它位于：/data/hadoop/dfs/name 下，该目录下有一个current文件夹和一个in_use.lock文件。其中current文件夹下保存了元数据，它的结构类似下面这样：

# ls /data/hadoop/dfs/name/current
edits_0000000000000014798-0000000000000014799  fsimage_0000000000000019703
edits_0000000000000014800-0000000000000014801  fsimage_0000000000000019703.md5
edits_0000000000000014802-0000000000000014803  fsimage_0000000000000019705
edits_0000000000000014804-0000000000000014805  fsimage_0000000000000019705.md5
edits_0000000000000014806-0000000000000014807  seen_txid
edits_0000000000000014808-0000000000000014809  VERSION

fsimage和edits文件的关系是这样的：

fsimage - 保存了到某一时刻的历史快照信息
edits - 保存了自某一历史时刻之后的变更信息

因此 fsimage + edits 就可以获得完整的元数据信息。

每当NameNode重启时，就将edits合并到fsimage，然后重新记录edits。但这样带来一个问题：NameNode在生产环境下很少重启，那么下次重启时需要合并的edits就变得非常多，从而需要花费比较长的时间。

简言之，在重启时旧的fsimage+edits = 新的fsimage

于是SecondaryNameNode就出现了，它作为一个辅助进程来协助NameNode完成这项工作：

它间歇性地从NameNode获取未合并的edits文件，这个配置项是dfs.namenode.checkpoint.check.period，位于hdfs-site.xml，默认时间是60秒。
它间歇性地合并edits文件和fsimage，这个配置项是dfs.namenode.checkpoint.period，位于hdfs-site.xml，默认时间是3600秒，即1小时。
它将合并好的fsimage发回NameNode.

将SecondaryNameNode迁移至独立的服务器

本文的集群初始配置是这样的：

主机名	IP	作用
node0	192.168.1.56	NameNode, SecondaryNameNode, DataNode
node1	192.168.1.57	DataNode
node2	192.168.1.58	DataNode

目标就是将 SecondaryNameNode 从node0迁移至node1，然后停掉node0(模拟故障)，并将node1作为NameNode重新启动(当然也可以是其他机器)。

在默认情况下，当使用 $HADOOP_HOME/sbin/start-dfs.sh 启动集群时，NameNode 和 SecondaryNameNode 位于执行start-dfs.sh的机器，DataNode位于 $HADOOP_HOME/etc/hadoop/slaves 文件中指定的机器。

dfs.namenode.secondary.http-address的默认值是：0.0.0.0:50090，代表本机。

修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml，更改SecondaryNameNode的路径：

<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node1:50090</value>
</property>

<property>
    <name>dfs.namenode.secondary.https-address</name>
    <value>node1:50091</value>
</property>

在node0 (当前登录机器) 上重新执行 $HADOOP_HOME/sbin/start-dfs.sh:

# $HADOOP_HOME/sbin/start-dfs.sh
Starting namenodes on [node0]
node0: namenode running as process 1842. Stop it first.
node0: datanode running as process 30113. Stop it first.
node2: starting datanode, logging to /opt/hadoop/hadoop-2.9.1/logs/hadoop-root-datanode-dev58.out
node1: starting datanode, logging to /opt/hadoop/hadoop-2.9.1/logs/hadoop-root-datanode-dev57.out
Starting secondary namenodes [node1]
node1: starting secondarynamenode, logging to /opt/hadoop/hadoop-2.9.1/logs/hadoop-root-secondarynamenode-dev57.out

可以看到secondarynamenode将会在另一台机器上启动 (此处是node1)。

启动完后在node1和node2上分别执行下面的脚本，对比一下current下的文件，以及版本信息：

[node0] ls /data/hadoop/dfs/name/current
[node1] ls /data/hadoop/dfs/namesecondary/current

[node0] cat /data/hadoop/dfs/name/current/VERSION
[node1] cat /data/hadoop/dfs/namesecondary/current/VERSION

使用SecondaryNameNode来做故障恢复

注意，这里的故障恢复不是高可用。高可用由另外的更复杂的机制来实现，通常我们说高可用，是指无需人工介入的故障自动恢复。这里的故障恢复是需要人工参与的。

这里仅仅是利用SecondaryNameNode每60秒从NameNode同步一次元数据的特性，在NameNode出现故障时，将SecondaryNameNode作为NameNode进行启动，使得集群可以在短时间内恢复。

停止NameNode

为了做测试，我们可以手动停掉NameNode(node0)，模拟其发生故障。在NameNode上执行下面的语句将其停掉：

# $HADOOP_HOME/sbin/hadoop-daemon.sh stop namenode

复制SecondaryNameNode下的元数据文件

此时NameNode(位于node0)已经不可访问，但我们可以在SecondaryNameNode(node1)上还原一份元数据。在node1上拷贝 ${hadoop.tmp.dir}/dfs/namesecondary 至 ${hadoop.tmp.dir}/dfs/name。

# cp -r /data/hadoop/dfs/namesecondary /data/hadoop/dfs/name

修改/etc/hosts，将原先NameNode的地址改为现在SecondaryNameNode的地址

要将NameNode切换到SecondaryNameNode上运行，我们还需要修改core-site.xml中fs.defaultFS项的配置，例如：

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:9000</value>
</property>

然后，使用下面的命令重新加载一下配置：

# hdfs dfsadmin -refreshNamenodes datanode:port

在本例中，有两台DataNode，分别是node1和node2，执行的是 hdfs dfsadmin -refreshNamenodes node1:50020

因为这种方法需要修改core-site.xml配置文件，将来机器恢复后还要再修改一遍，比较麻烦。还有一种更简单的方法，就是修改etc/hosts，将原本node1和node2上node0(原NameNode的地址)，修改为node1的地址：

# cat /etc/hosts
192.168.1.57    node0
192.168.1.57    node1
192.168.1.58    node2

上面node0之前的地址是192.168.1.56，改为了192.168.1.57。

当集群中服务器很多时，要修改所有服务器的hosts，更好的办法是配置一个DNS服务器，专门用来解析IP。

重新启动NameNode

在新的node1上执行下面的语句，重新启动NameNode：

# $HADOOP_HOME/sbin/hadoop-daemon.sh start namenode

测试集群

可以通过执行下面的语句查看集群状态：

# hdfs dfsadmin -report

也可以通过NameNode的Web UI来查看。

http://namenode-ip:50070/dfshealth.html

对于本例而言，namenode-ip就是新切换到的node1的ip：192.168.1.57。

还可以通过执行文件的上传和下载来验证集群是否工作正常：

# hdfs dfs -put <local file> <hdfs file>
# hdfs dfs -get <hdfs file> <local file>
# hdfs dfs -rm -f <hdfs file>

总结

在这篇文章中，我们利用SecondaryNameNode自动同步NameNode元数据的特性，演示了当NameNode不可用时，将SecondaryNameNode作为NameNode进行启动的操作步骤。这里切换过后SecondaryNameNode和NameNode位于同一台机器。当然也可以使用独立的一台机器做为新的NameNode，此时将SecondaryNameNode上的元数据拷贝到新机器然后执行相应操作即可。

感谢阅读，希望这篇文章能给你带来帮助！