Hadoop是一个分布式系统基础架构,现在通常指一个分布式hadoop生态圈,用于海量数据存储与分析计算。

Hadoop 3.x组成

  1. common
  2. hdfs
  3. yarn
  4. mapreduce

NameNode DateNode Secondary node

  1. NameNode(nn):存储元数据
  2. DataNode: 存储文件块数据以及校验和
  3. Secondary NameNode node(2nn) : 每个一段时间对NameNode进行元数据备份。

yarn

  1. resource manager
  2. Node Manager
  3. applicationMaster
  4. container 容器

说明: 1.有多个客户端 2. 集群可以运行多个ApplicationMaster 3. 每个NodeManager可以有多个Container(默认1g-8g内存)

hadoop安装

  1. ip配置与主机名称
    hadoop /etc/sysconfig/network-script/ens33 /etc/hostname /etc/hosts
    VM
    windows
  2. 配置文件/etc/profile
    自动配置模块。
  3. scp -r 拉取/推送两种方式。