hadoop之HDFS安装配置

准备工作

是否安装JDK

是否配置静态IP   配置 IP和主机名映射 (根目录输入 vi /etc/hosts)

检查虚拟机时间是否同步,输入date查看

关闭防火墙: systemctl disable firewalld 

1.免密设置

ssh one  先连接需要免密的服务器,输入yes
	exit     退出
	cd .ssh
	ssh-keygen -t rsa  四个回车(可能要输y)
	ssh-copy-id two three four five(四个虚拟机名字)要免密哪台就输哪台的名字
	ssh nodetwo  测试连接,如不需要密码就是免密成功 exit退出

2.安装依赖软件

yum -y install ssh rsync

3.安装hdfs

解压:tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz

修改文件夹名称为 hadoop ,即hadoop安装目录,执行修改文件夹名称命令

mv hadoop-2.6.0 hadoop

hadoop配置文件的修改:

cd /opt/install/hadoop/etc/hadoop

vi hadoop-env.sh

在任意位置里添加以下内容  (建议在最底部)

export JAVA_HOME=/opt/install/jdk     ---jdk安装路径

配置namenode的位置:

vi core-site.xml

在<configuration>中添加	
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://nodetwo:9000</value>
    </property>
	<property>
        <name>hadoop.tmp.dir</name>
        <value>/var/cdh/hadoop/</value>
    </property>
     <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>five:50090</value>
    </property>
配置数据的存放位置和副本数,这里设置为2(2为随意设置的):
vi hdfs-site.xml

在<configuration>中添加
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>

添加其余虚拟机名字:(删除localhost)

vi slaves 

--例如我的虚拟机名字是这三个	
	four 
	five 
	six

配置环境变量:(根目录输入)

vi /etc/profile

export JAVA_HOME=/opt/install/jdk            (jdk安装路径)
export HADOOP_HOME=/opt/install/hadoop       (hadoop安装路径)
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5、上传配置信息到其余三台虚拟机

cd /opt/

scp -r install/ four:`pwd`   (four指其余三台虚拟机的名字,每台都要上传)
scp -r install/ five:`pwd`
scp -r install/ six:`pwd`

6、格式化文件系统(仅第一次执行即可,不要重复执行)

hdfs namenode -format

在最后几行内看到有以下代码说明成功

INFO common.Storage: Storage directory /var/cdh/hadoop/dfs/name has been successfully formatted.	

7、一键启动hdfs:

start-dfs.sh

8、验证是否启动成功:

输入 jps 会出现以下内容

NameNode
SecondaryNameNode
Jps

9、web端口访问

网址输入:本机IP地址 :50070 进入hadoop页面

如:192.168.10.25:50070

10、上传环境变量:

scp /etc/profile four:/etc/profile   (four指其余三台虚拟机的名字,每台都要上传)

Hadoop集群启动方式:

1、单节点启动:

hadoop-daemon.sh start namenode (HDFS的进程)   start换成stop是结束进程
yarn-daemon.sh start nodemanager (YARN的进程)  start换成stop是结束进程

2、一键启动:

start-dfs.sh  (HDFS的进程) 

输入jps启动进程包括 SecondaryNameNode  NameNode  NodeManager  Jps

start-yarn.sh (YARN的进程) 

输入jps启动进程包括 SecondaryNameNode  NameNode  NodeManager ResourceManager Jps

3、如果用start-all.sh会提示:

 This script is Deprecated.  Instead use start-dfs.sh and start-yarn.sh
(此脚本已弃用。 推荐使用start-dfs.sh和start-yarn.sh  )

4、如果要停止hdfs代码为

sbin/stop-dfs.shsn

通过UI来查看hadoop运行状态

1、查看HDFS的运行状态:http://namenode对应的主机IP地址 :50070

2、查看HDFS的运行状态:http://resourcemanager对应的主机IP地址 :8088


版权声明:本文为Cheney6原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。