#第22篇分享：python初识大数据(4)-yarn-spark计算集群搭建

#yarn-spark计算集群搭建-----yarn用于计算资源分配，spark进行计算

1.首先我们们先了解一下yarn： 官方说法就是，任务调度与资源管理 ——分布式资源管理框架。
简单理解以下就是，我们想要计算，而且把很多台计算机连到了一起，但是我们总不能计算的时候让一部分满负荷一部分没事干吧，所以这时候就能体会到yarn的作用了，他会了解以下当前所有计算机的使用情况，然后根据实际情况指挥每台计算机分配多少资源给当前的计算，对，没错，就像一个大将军。

2.我们如何配置一个可用的yarn：
和hdfs模式基本差不多，都是一代多的情况，看下图yarn架构图我们就能看出来，我们要选定一个resourcemanager，然后配置多个nodemanager。
在这里插入图片描述

a.系统相关文件配置hosts，hostname，防火墙，Linux之间添加信任：和hdfs的基础配置一致，自行查看

b.yarn-site.xml:

'''
1.我们的hadoop是安装在program下面的，所以我们切换路径：cd /program/hadoop-3.3.0/etc/hadoop
2.修改vi yarn-site.xml文件:yarn.resourcemanager.hostname 是在指定主机是谁：
<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
               <name>yarn.resourcemanager.hostname</name>
               <value>hadoop1</value>
        </property>

</configuration>
~                      
'''

在这里插入图片描述
c.mapred-site.xml:

'''
1.我们的hadoop是安装在program下面的，所以我们切换路径：cd /program/hadoop-3.3.0/etc/hadoop
2.修改vi mapred-site.xml文件:mapreduce.framework.name是设置用yarn集群进行计算。

<configuration>
          <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value> #默认是local，不配置走本地多>线程计算
          </property>
</configuration>
~                
'''

在这里插入图片描述
d.workers配置(配置一下集群有几台机器):

'''
1.我们的hadoop是安装在program下面的，所以我们切换路径：cd /program/hadoop-3.3.0/etc/hadoop
2.修改vi workers文件(加入集群里面用户ip)：
hadoop1
hadoop2
hadoop3

'''

在这里插入图片描述

注：
三台机器的配置是一样的，注意都要配置哟：

3.我们如何验证一个yarn是否好用呢？：
a.首先启动一下yarn:

'''
1.切换路径：cd /program/hadoop-3.3.0/sbin
4.运行命令：./start-yarn.sh  启动yarn ./stop-yarn.sh 停止yarn
5.查看是否启动成功：jps
6.查看Hadoop1:resourcemanager，nodemanager都在，hadoop2/hadoop3：nodemanager存在，就说明启动成功
'''

web端启动后，也可以查看到三台机器：
在这里插入图片描述
b.mapreduce执行一个内置计算的例子:
①.数据需要存储在hdfs里面，首先启动好我们的hdfs，没有配置可以查找一下我之前的文章。
②.执行计算语句（如果你的计算机可以计算成功，遇到问题解决问题吧）：

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount file:///program/hadoop-3.3.0/etc/hadoop/* output  "export"
翻译一下就是：查询file:///program/hadoop-3.3.0/etc/hadoop/*路径下下的每个单词数量，保存进export中。
说明：
我没有运行成功，因为我的小笔记本开了三台虚拟机，然后开启了hdfs，继续开启了yarn,简直卡的不行了，没有能力执行计算了。所以以上yarn集群没有异常，试过了，计算行不行不知道，因为卡死机好几次，随之放弃了。

在这里插入图片描述

4.安装spark：
a.下载spark，spark下载连接，直接搜官网那个刷不出来，反正我没有刷不出来。
在这里插入图片描述
b.安装spark：解压即安装(linux下的模块安装都差不多)：

'''
Linux用到的命令：cd(切换路径)，mkdir(创建目录)，ll（查看文件），  cp/mv -i(复制/移动文件)，tar（解压），sudo（获得权限，提示你没有权限sudo一下即可），chmod(sudo权限还不够，chmod改一下即可)，su（切换用户）；

1.切换到root用户:su root   输入密码:xxxxxxx
2.切换到根目录:cd / 
3.新建文件夹:mkdir program
4.把Hadoop压缩包导入program，cp(复制)/mv -i(移动)
5.解压即可用：tar -xvzf spark-xxxxx(压缩包名称)；
普通用户：sudo tar -xvzf spark-xxxxx即可，需要输入密码；
用root用户进行的到这就安装完了，普通用户总是会有权限方面的事情，不想理会6可以不做的。

6.普通用户使用最好改下文件权限，并进行授权：
  a.进行文件目录授权,目的，让普通用户能够访问该目录，执行命令
   sudo chmod -R 755 java安装目录
   sudo chown -R [username] kafka安装目录
''''

c.运行spark：

'''
1.切换目录：cd /program/spark-3.0.1-bin-hadoop3.2/bin
2.执行./spark-submit --master local --deploy-mode client 
'''

持续更新，，，，，，，，，，，，，，

原文链接：https://blog.csdn.net/weixin_46008828/article/details/112891514