hadoop(一)

发表于2025-07-24|更新于2025-07-29

|阅读量:

Hadoop是一个分布式系统基础架构，现在通常指一个分布式hadoop生态圈，用于海量数据存储与分析计算。

Hadoop 3.x组成

common
hdfs
yarn
mapreduce

NameNode DateNode Secondary node

NameNode(nn):存储元数据
DataNode: 存储文件块数据以及校验和
Secondary NameNode node(2nn) ：每个一段时间对NameNode进行元数据备份。

yarn

resource manager
Node Manager
applicationMaster
container 容器

说明： 1.有多个客户端 2. 集群可以运行多个ApplicationMaster 3. 每个NodeManager可以有多个Container(默认1g-8g内存)

hadoop安装

ip配置与主机名称
hadoop /etc/sysconfig/network-script/ens33 /etc/hostname /etc/hosts
VM
windows
配置文件/etc/profile
自动配置模块。
scp -r 拉取/推送两种方式。

[!NOTE]
xsync 集群分发
ssh免密登录

集群配置

core-site.xml namenode地址、hadoop数据存储目录
hdfs-site.xml nnweb地址、2nnweb地址
yarn-site.xml mapreduce协议、ResourceManager地址、环境变量继承（高版本解决）
mapred-site.xml mapreduce在Yarn运行
workers

hdfs:9870 yarn：8088 jobhistory (内部 10020 web 19888)

hadoop初始化

hdfs namenode -format
故障恢复
a. 服务停掉，先yarn在dfs.
b. 删除data与logs 避免版本不一致，把每个集群的都删除。
c. 格式化
d. 启动
历史服务器
a. 配置mapred-site.xml
b. shutdown yarn 每个节点都stop，同时启动是在resource manager中进行。
c. start yarn
d. bin/mapred —daemon start historyserver
启动顺序
a. hdfs
b. yarn
c. historyserver

文章作者: 秋叶半金

文章链接: https://hongjinlv.github.io/2025/07/24/hadoop/hadoop1/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自秋叶半金！

相关推荐