在 Apache Spark 中,创建 RDD(弹性分布式数据集)可以通过几种不同的方式实现。以下是创建 RDD 的两种主要方法:

1. 从现有的数据集合中创建

这种方法通过对现有的数据集合(如数组或集合)应用并行化操作来创建 RDD。在 Scala、Python 或 Java 等支持的 Spark 编程语言中,可以使用 sparkContext.parallelize 方法。例如:

Scala 示例:

val data = Array(1, 2, 3, 4, 5)
val rdd = sc.parallelize(data)

Python 示例:

03-23 08:29