Joins

需要注意的一点是你的资源与你加入的数据大小。这是你的 Spark Join 代码可能失败的地方,会给你带来内存错误。因此,请确保根据数据大小配置 Spark 作业。以下是 150 万到 2 亿的连接配置示例。

使用 Spark-Shell

spark-shell   --executor-memory 32G   --num-executors 80  --driver-memory 10g --executor-cores 10   

使用 Spark 提交

spark-submit   --executor-memory 32G   --num-executors 80  --driver-memory 10g --executor-cores 10 code.jar