Spark API 详解RDD、partition、count、collect

RDD是一个数据集合，可以有运行在多个分区（RDD分区），一个RDD分区只能运行在一个机器上。

分区的定义：
一个RDD有多个RDD分区
一个RDD分区只在一个机器上
一个机器可有多个RDD分区

由数据转换为RDD：

举例：从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。这个RDD一共9个元素，每个元素含有一个数字

val a = sc.parallelize(1 to 9, 3)
1
举例：读取本地文件README.md来创建RDD，文件中的每一行就是RDD中的一个元素，分区是2

val b = sc.textFile("README.md",2)
1
count( )
返回RDD的元素个数

collect( )
返回整个RDD
---------------------
作者：guotong1988
来源：CSDN
原文：https://blog.csdn.net/guotong1988/article/details/50554034
版权声明：本文为博主原创文章，转载请附上博文链接！