大数据实训笔记DAY01

简介

概述

  1. Hadoop是Yahoo!开发后来贡献给了Apache的一套分布式机制
  2. Hadoop提供了简单的编程模型来对大量数据进行计算
  3. Hadoop能够从一台服务器扩展到上千台服务器,每一台服务器都能够进行计算和存储
  4. Hadoop提供了探测和处理异常的机制
  5. Hadoop本身的版本非常混乱,在选择版本的时候需要注意版本和组件之间的兼容性

模块

  1. Hadoop Common:公共模块,实际上就是依赖Nutch的包
  2. Hadoop Distributed File System (HDFS™):分布式文件系统,提供了分布式存储的功能
  3. Hadoop YARN:任务调度和集群的资源管理
  4. Hadoop MapReduce:分布式计算
  5. Hadoop Ozone:对象存储

版本

  1. Hadoop1.X:包含Common、HDFS、MapReduce模块。已经停止使用
  2. Hadoop2.X:包含了Common、HDFS、MapReduce、YARN模块。Hadoop2.X和Hadoop1.X全版本不兼容
  3. Hadoop3.X:包含了所有的模块,和Hadoop2.X部分版本兼容

安装步骤

  1. 关闭防火墙

    # 临时关闭防火墙
    systemctl stop firewalld
    # 永久关闭防火墙
    systemctl disable firewalld
    
  2. 修改主机名

    vim /etc/hostname
    # 然后删掉localhost,改为自己指定的主机名,例如主机名改成hadoop
    
  3. 将主机名和IP进行映射

    vim /etc/hosts
    # 添加IP 主机名,例如
    192.168.122.1 hadoop
    
  4. 重启

    reboot
    
  5. 进行免密互通

    # 产生密钥
    ssh-keygen
    # 复制密钥
    ssh-copy-id root@hadoop
    # 回车之后输入yes,然后回车输入密码
    # 测试免密是否成功
    ssh hadoop
    # 如果不需要输入密码,则退出ssh登录
    logout
    
  6. 解压

    tar -xvf hadoop-3.1.3.tar.gz
    
  7. 配置环境变量

    vim /etc/profile
    # 在文件中添加
    export HADOOP_HOME=/opt/hadoop-3.1.3
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    # 保存退出,重新生效
    source /etc/profile
    # 检查环境变量是否配置正确
    hadoop version
    
  8. 进入Hadoop的配置目录

    cd hadoop-3.1.3/etc/hadoop/
    
  9. 修改文件

    echo $JAVA_HONE
    # 复制打印出来的JDK的安装路径
    vim hadoop-env.sh
    # 在文件末尾添加
    export JAVA_HOME=/opt/jdk1.8
    export HADOOP_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop
    # 保存退出,重新生效
    source hadoop-env.sh
    
  10. 编辑文件

    vim core-site.xml
    

    在configuration标签中添加

    <property>
    	<name>fs.default.name</name>
        <value>hdfs://hadoop:9000</value>
    </property>
    <property>
    	<name>hadoop.tmp.dir</name>
        <value>/opt/hadoop-3.1.3/tmp</value>
    </property>
    
  11. 编辑文件

    vim hdfs-site.xml
    

    在configuration标签中添加

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    
  12. 编辑文件

    vim mapred-site.xml
    

    在configuration标签中添加

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    
  13. 编辑文件

    vim yarn-site.xml
    

    在configuration标签中添加

    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    
  14. 编辑文件

    vim workers
    # 删除掉localhost,添加自己的主机名
    
  15. 修改启动命令

    cd ../../sbin/
    vim start-dfs.sh
    # 在文件的头部添加
    HDFS_DATANODE_USER=root
    HDFS_NAMENODE_USER=root
    HDFS_SECONDARYNAMENODE_USER=root
    HDFS_DATANODE_SECURE_USER=hdfs
    
  16. 修改结束命令

    vim stop-dfs.sh
    # 在文件头部添加
    HDFS_DATANODE_USER=root
    HDFS_NAMENODE_USER=root
    HDFS_SECONDARYNAMENODE_USER=root
    HDFS_DATANODE_SECURE_USER=hdfs
    
  17. 修改启动命令

    vim start-yarn.sh
    # 在文件头部添加
    YARN_RESOURCEMANAGER_USER=root
    YARN_NODEMANAGER_USER=root
    HDFS_DATANODE_SECURE_USER=hdfs
    
  18. 修改结束命令

    vim stop-yarn.sh
    # 在文件头部添加
    YARN_RESOURCEMANAGER_USER=root
    YARN_NODEMANAGER_USER=root
    HDFS_DATANODE_SECURE_USER=hdfs
    
  19. 格式化NameNode

    hdfs namenode -format
    

    如果出现Storage directory /opt/hadoop-3.1.3/tmp/dfs/name has been successfully formatted.表示格式化成功

  20. 启动Hadoop

    start-all.sh
    
  21. 通过命令

    jps
    

    查看进程如下:

    Jps
    NameNode
    DataNode
    SecondaryNameNode
    ResourceManager
    NodeManager
    

版权声明:本文为linhan123321原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。