参考文章: 京东Spark自研Remote Shuffle Service在大促中的应用实践 SPARK RSS 杂谈 RSS设计文档 一、原生的 shuffle 过程 1、在mapper将shuffle数据写到本地磁盘,每个mapper会按照下游reducer的个数生成block 2、reducer在fetch环节拉取对应的block 性能问题 每个map生成的shuffle数据在一个文件中,文件分成多个block,每个block是一个