简介

概述

Hadoop是Yahoo!开发后来贡献给了Apache的一套分布式机制
Hadoop提供了简单的编程模型来对大量数据进行计算
Hadoop能够从一台服务器扩展到上千台服务器，每一台服务器都能够进行计算和存储
Hadoop提供了探测和处理异常的机制
Hadoop本身的版本非常混乱，在选择版本的时候需要注意版本和组件之间的兼容性

模块

Hadoop Common：公共模块，实际上就是依赖Nutch的包
Hadoop Distributed File System (HDFS™)：分布式文件系统，提供了分布式存储的功能
Hadoop YARN：任务调度和集群的资源管理
Hadoop MapReduce：分布式计算
Hadoop Ozone：对象存储

版本

Hadoop1.X：包含Common、HDFS、MapReduce模块。已经停止使用
Hadoop2.X：包含了Common、HDFS、MapReduce、YARN模块。Hadoop2.X和Hadoop1.X全版本不兼容
Hadoop3.X：包含了所有的模块，和Hadoop2.X部分版本兼容

安装步骤

关闭防火墙

# 临时关闭防火墙
systemctl stop firewalld
# 永久关闭防火墙
systemctl disable firewalld

修改主机名

vim /etc/hostname
# 然后删掉localhost，改为自己指定的主机名，例如主机名改成hadoop

将主机名和IP进行映射

vim /etc/hosts
# 添加IP 主机名，例如
192.168.122.1 hadoop

重启
```
reboot
```

进行免密互通

# 产生密钥
ssh-keygen
# 复制密钥
ssh-copy-id root@hadoop
# 回车之后输入yes，然后回车输入密码
# 测试免密是否成功
ssh hadoop
# 如果不需要输入密码，则退出ssh登录
logout

解压
```
tar -xvf hadoop-3.1.3.tar.gz
```

配置环境变量

vim /etc/profile
# 在文件中添加
export HADOOP_HOME=/opt/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 保存退出，重新生效
source /etc/profile
# 检查环境变量是否配置正确
hadoop version

进入Hadoop的配置目录
```
cd hadoop-3.1.3/etc/hadoop/
```

修改文件

echo $JAVA_HONE
# 复制打印出来的JDK的安装路径
vim hadoop-env.sh
# 在文件末尾添加
export JAVA_HOME=/opt/jdk1.8
export HADOOP_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop
# 保存退出，重新生效
source hadoop-env.sh

编辑文件

vim core-site.xml

在configuration标签中添加

<property>
	<name>fs.default.name</name>
    <value>hdfs://hadoop:9000</value>
</property>
<property>
	<name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-3.1.3/tmp</value>
</property>

编辑文件

vim hdfs-site.xml

在configuration标签中添加

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

编辑文件

vim mapred-site.xml

在configuration标签中添加

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

编辑文件

vim yarn-site.xml

在configuration标签中添加

<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

编辑文件

vim workers
# 删除掉localhost，添加自己的主机名

修改启动命令

cd ../../sbin/
vim start-dfs.sh
# 在文件的头部添加
HDFS_DATANODE_USER=root
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs

修改结束命令

vim stop-dfs.sh
# 在文件头部添加
HDFS_DATANODE_USER=root
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs

修改启动命令

vim start-yarn.sh
# 在文件头部添加
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=hdfs

修改结束命令

vim stop-yarn.sh
# 在文件头部添加
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=hdfs

格式化NameNode
```
hdfs namenode -format
```
如果出现Storage directory /opt/hadoop-3.1.3/tmp/dfs/name has been successfully formatted.表示格式化成功
启动Hadoop
```
start-all.sh
```

通过命令

jps

查看进程如下：

Jps
NameNode
DataNode
SecondaryNameNode
ResourceManager
NodeManager

原文链接：https://blog.csdn.net/linhan123321/article/details/118656680