（4）spark RDD 算子练习

有何不可~

已于 2022-02-25 17:07:55 修改

阅读量812

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark scala 大数据

于 2022-02-24 17:33:29 首次发布

本文链接：https://blog.csdn.net/qq_41123269/article/details/123116949

Spark 专栏收录该内容

13 篇文章

订阅专栏

该博客介绍了如何使用Apache Spark进行数据处理，统计每个省份广告被点击的数量，并排出Top3的排行。通过读取agent.log文件，经过数据预处理、reduceByKey和groupByKey操作，最终获取每个省份的广告点击量前三名。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1)数据准备
agent.log：时间戳，省份，城市，用户，广告，中间字段使用空格分隔。
2)需求描述
统计出每一个省份每个广告被点击数量排行的Top3

   /** agent.log：
      *时间戳，省份，城市，用户，广告，中间字段使用空格分隔。
      */
    // TODO 需求： 统计出每一个省份 广告被点击数量排行的Top3
    val agentRdd = sc.textFile("Input/sparkCore/agent.log")
    agentRdd
      .map(line=>{
        val datas = line.split(" ")
        ((datas(1),datas(4)),1)  //（(省份，广告)，1）
      })
      .reduceByKey(_+_) //（(省份，广告)，sum）
      .map{
        case ((pro,ad),sum) =>
          (pro,(ad,sum))  //（省份，（广告，sum)）
       }
      .groupByKey() //（省份，iterator(（广告，sum),（广告，sum),...)）
      .mapValues(iter =>{
        iter.toList.sortBy(_._2)(Ordering.Int.reverse).take(3)   //降序排列 取前三
      }) // （省份，top3（广告，sum))
      .collect().foreach(println)