1，spark 初识

1.1，spark 与 hadoop

1.2，核心模块

sparkCore，sparkSql，sparkStreaming

2，wordCount（demo）

3，spark local 模式

3.1，spark-shell

sc.textFile("../data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

3.2，监控页面（端口：4040）

http://172.16.60.196:4040/jobs/

3.3，提交命令

./spark-submit --master local[2] --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.12-3.0.0.jar 10

4，standalone 模式

4.1，独立部署模式、主从模式

4.2，分发脚本

xsync
https://www.cnblogs.com/smandar/p/13898073.html

xcall
https://blog.csdn.net/eraining/article/details/108470060

4.3，提交命令参数

4.4，配置历史服务

4.5，配置高可用（HA）

5，yarn 模式

5.1，yarn环境

5.2，提交命令

6，部署模式对比

端口：

7，Driver

8，spark 核心组件

核心组件
driver、applicationMaster、master
核心概念
Executor
有向无环图（DAG）：避免循环依赖
提交流程（资源申请、计算准备）

9，spark 三大数据结构

RDD
累加器
广播变量

10，RDD 弹性分布式数据集（Resilient /rɪˈzɪliənt/ Distributed Dataset）

1，弹性（策略）
1.1，存储的弹性
1.2，容错的弹性
1.3，计算的弹性
1.4，分片的弹性（根据需要重新调整分区）
2，分布式：数据存储在大数据集群不同节点
3，数据集：RDD封装了数据逻辑，不保存数据
4，数据抽象：RDD是一个抽象类，需要子类具体实现
5，不可变：只能产生新的RDD（装饰者模式）
6，可分区、并行计算

RDD 核心属性
1，分区列表
2，分区计算函数
3，RDD之间的依赖关系
4，分区器（将数据分区处理）
5，首选位置（判断计算发送到哪个节点效率最优），移动数据不如移动计算

执行原理

RDD在整个流程中主要用于将逻辑进行封装，并生成Task发送给Executor节点执行计算

参考链接：

尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili制作不易，大家记得点个关注，一键三连呀【点赞、投币、收藏】感谢支持~众所期待，隆重推出！大数据领域中杀手级的应用计算框架：Spark视频教程。本套视频教程基于Scala 2.12版本，对Spark 3.0版本的核心模块进行了详尽的源码级讲解，授课图文并茂，资料详实丰富，带你领略不一样的技术风景线。课程内容涉及方方面面，函数式编程，你熟悉吗？认知心理学，你知道吗？工程化代码框架，你了解吗？在这套https://www.bilibili.com/video/BV11A411L7CK?p=1

原文链接：https://blog.csdn.net/weixin_37998428/article/details/122561972