RDD 的分区

备注中所述,分区是 RDD 的一部分/切片/块。以下是有关如何为 RDD 请求最小分区数的最小示例:

In [1]: mylistRDD = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 2)

In [2]: mylistRDD.getNumPartitions()
Out[2]: 2

请注意[1]我们如何将 2 作为 parallelize() 的第二个参数传递。该参数表示我们希望我们的 RDD 至少有 2 个分区。