如果是读取hdfs的文件,一般来说,partition的数量等于文件的数量。
如果单个文件的大小大于hdfs的分块大小,partition的数量就等于 “文件大小/分块大小”。
同时,也可以使用rdd的repartition方法重新划分partition。
另外,在使用聚合函数比如 reducebykey, groupbykey,可以通过指定partitioner来指定partition的数量。
如果是读取hdfs的文件,一般来说,partition的数量等于文件的数量。
如果单个文件的大小大于hdfs的分块大小,partition的数量就等于 “文件大小/分块大小”。
同时,也可以使用rdd的repartition方法重新划分partition。
另外,在使用聚合函数比如 reducebykey, groupbykey,可以通过指定partitioner来指定partition的数量。