【Ambari Plus】04.HDFS 安装

发布时间:2026/7/1 2:12:49
【Ambari Plus】04.HDFS 安装 HDFS 安装HDFS是后面很多组件的底座。YARN、MapReduce2、Tez、Hive、HBase、Spark、Hue 都会不同程度依赖它所以我会把 HDFS 放在 Knox 之后、YARN 之前安装。当前集群已经开启了 Kerberos也已经接入了 Ranger 和 Knox。安装 HDFS 时会多一个动作向导需要提交一次 KDC 管理员凭据用来为 HDFS 生成和分发 Kerberos Principal。这个步骤不要跳过否则组件包可能装完了但服务启动和 Service Check 会卡住。本次主机规划如下主机HDFS 角色hadoop1.test.comNAMENODE、DATANODE、HDFS_CLIENThadoop2.test.comSECONDARY_NAMENODE、DATANODE、HDFS_CLIENThadoop3.test.comDATANODE、HDFS_CLIENT::: tip这里继续使用 FQDN 主机名不要在 HDFS、Kerberos、Knox 之间混用 IP、短主机名和完整域名。后面接 WebHDFS、Hive、Hue、Knox 拓扑时统一主机名能少掉很多莫名其妙的认证问题。:::1. 选择 HDFS 服务进入服务与组件点击新增服务。在服务列表中找到HDFS勾选它。这一步只选择 HDFS。页面会显示已选服务 1说明本次向导只处理 HDFS不会把 YARN、MapReduce2、Hive 等后续组件一并装进去。HDFS 的依赖里已经有 ZooKeeper 和 Kerberos 环境前面的准备文章已经完成所以这里可以直接下一步。2. 分配 Master 角色Master 分配页里有两个 HDFS Master 角色组件分配主机NAMENODEhadoop1.test.comSECONDARY_NAMENODEhadoop2.test.com我这里保留默认分配。hadoop1.test.com是平台入口和主要管理节点把NAMENODE放在这里后面看 HDFS 状态、接 Hive、接 Hue 时都比较直观。SECONDARY_NAMENODE放到hadoop2.test.com可以把 checkpoint 角色和 NameNode 分开。::: warningSecondaryNameNode 不是 NameNode 的热备。它主要做 checkpoint不等于 HDFS HA。生产环境要做 NameNode HA需要单独规划 JournalNode、ZKFC 和两个 NameNode。:::3. 分配 DataNode 和 HDFS ClientSlave 与 Client 分配页里HDFS 有两个要看的角色角色本次分配DATANODEhadoop1.test.com、hadoop2.test.com、hadoop3.test.comHDFS_CLIENThadoop1.test.com、hadoop2.test.com、hadoop3.test.com演示环境三台机器都作为 DataNode这样 HDFS 能看到 3 个存储节点。HDFS_CLIENT也三台都装后续在任意节点上执行hdfs dfs命令会方便一些。如果是生产环境DataNode 是否部署到管理节点要结合磁盘、内存、角色隔离和运维规范决定教程环境为了完整演示三台都保留。4. 补齐代理用户配置进入自定义配置页后页面会提示有1 个必填配置项尚未填写。点击待填写只看缺失项。缺失项在core-site.xml配置名是hadoop.proxyuser.*。这里填写配置项示例值hadoop.proxyuser.**这个配置和后面的 Hive、Hue、Knox 代理访问有关。教程环境写*可以减少后面组件接入时的代理用户报错生产环境建议按具体服务用户收紧例如只给hive、knox、hue等代理用户开放指定主机和组。5. 确认安装清单配置补齐后进入确认页。这里不要直接点开始安装我会先对照三项检查项本次结果新增服务HDFSMaster 分配NAMENODE - hadoop1.test.comSECONDARY_NAMENODE - hadoop2.test.comSlave / Client 分配DATANODE和HDFS_CLIENT都在三台主机配置校验必填项已填写确认无误后点击开始安装。6. 提交 KDC 管理员凭据因为集群已经启用了 KerberosHDFS 安装过程中会弹出KDC 管理员凭据。这里使用前面 Kerberos 文章里创建的管理员配置项示例值管理员 Principaladmin/adminTEST.COM管理员密码填写实际 KDC 管理员密码填写后点击提交并继续安装。这个凭据只用于本次创建 HDFS Principal 和下发 keytab页面不会保存管理员密码。7. 等待安装与 Service Check提交凭据后向导会进入安装进度页。这里不要只看包安装是否完成还要看后面的启动和HDFS_SERVICE_CHECK。这个阶段我重点看检查项期望结果DATANODE三台主机都启动成功NAMENODEhadoop1.test.com启动成功SECONDARY_NAMENODEhadoop2.test.com启动成功HDFS_SERVICE_CHECK最终执行成功失败任务0如果卡在启动阶段优先点开失败主机的日志看 Kerberos、目录权限、端口占用和磁盘目录问题。HDFS 的启动链路比较长DataNode成功不代表整套服务已经可用Service Check 通过才算这一轮安装收口。8. 完成安装向导服务启动和检查完成后向导进入最后一步页面会显示 HDFS 安装完成。这里可以点击返回服务列表。我一般会先回到服务总览看一次确认 HDFS 已经被归到基础存储分类里并且核心角色显示运行中。9. 回到 HDFS 服务页确认状态最后进入 HDFS 服务详情页状态应显示为运行中。这个页面我会看几项检查项期望结果服务状态HDFS运行中核心实例NameNode、SNameNode、DataNode显示运行中待刷新配置0失败请求0HDFS Client是客户端组件状态通常是已安装不会像 DataNode 那样作为守护进程显示运行中。只要服务状态是运行中、核心实例正常、失败请求为 0这一篇就可以收口。HDFS 装好以后下一步继续安装 YARN。YARN 会把资源调度层补上后面的 MapReduce2、Tez、Hive、Spark 才有比较完整的运行基础。