简介

spark是基于内存的大数据分布式并行计算框架，用于构建复杂的低延迟的数据分析应用

spark特点

运行速度快
容易使用
通用性好
运行模式多样

表达能力有限
磁盘IO开销大
延迟高

spark计算模式属于MapReduce但是比MapReduce灵活
spark基于内存进行运算，所以计算速度快
spark具有基于DAG的任务调度执行机制，优于MapReduce迭代执行机制

spark的核心建立在统一抽象的rdd之上，简单来说一个RDD就是一个分布式对象合集，本质上是一个只读的分区记录合集

RDD有两种操作转换与执行，在转换时不尽兴计算接受一个RDD返还也是一个RDD二行动操作则执行计算操作，接受一个RDD同时返还数值

在这里插入图片描述

宽依赖：一对多
窄依赖：多对一、一对一

在这里插入图片描述
本文及后续文章内容均由个人总结，仅用于复习记录，如发现错误请大家伙指正，侵删。