分割槽

Created: November-22, 2018

分割槽數對於應用程式的效能和/或成功終止至關重要。

彈性分散式資料集（RDD）是 Spark 的主要抽象。RDD 被拆分為分割槽，這意味著分割槽是資料集的一部分，是它的一部分，或者換句話說，是它的一部分。

分割槽數越大，每個分割槽的大小越小。

但是，請注意，大量分割槽會對 Hadoop 分散式檔案系統（HDFS）造成很大壓力，而 HDFS 必須保留大量後設資料。

分割槽數與記憶體使用量有關，memoryOverhead 問題可能與此數字（個人體驗）有關。

一個常見的錯誤為新使用者是他們的 RDD 轉變成一個 RDD 只有一個分割槽，通常看起來像這樣：

data = sc.textFile(file)
data = data.coalesce(1)

這通常是一個非常糟糕的主意，因為你告訴 Spark 將所有資料放在一個分割槽！請記住：

Spark 中的一個階段將一次在一個分割槽上執行（並將該分割槽中的資料載入到記憶體中）。

因此，你告訴 Spark 一次處理所有資料，這通常會導致與記憶體相關的錯誤（例如記憶體不足），甚至是空指標異常。

因此，除非你知道自己在做什麼，否則請避免在一個分割槽中重新分割槽 RDD！