Spark-核心编程(七)Spark案例实操即工程化代码

Spark案例实操

数据如下:

在这里插入图片描述

数据解析如下:

# 以第一行为例
2019-07-17  日期
95  用户ID
26070e87-1ad7-49a3-8fb3-cc741facaddf  sessionID
37  页面ID
2019-07-17 00:00:02  动作时间
手机  搜索-关键字,如果该字段不为null说明当前是搜索操作
-1    点击-品类ID,如果该字段不为-1说明当前操作是点击
-1    点击-产品ID,如果该字段不为-1说明当前操作是点击
null  下单-品类ID,如果该字段不为null说明当前操作是下单操作,多个ID用,隔开
null  下单-产品ID,如果该字段不为null说明当前操作是下单操作,多个ID用,隔开
null  支付-品类ID,如果该字段不为null说明当前操作是支付操作,多个ID用,隔开
null  支付-产品ID,如果该字段不为null说明当前操作是支付操作,多个ID用,隔开
3     城市id

上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下:

数据文件中每行数据采用下划线分隔数据

每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种

如果搜索关键字为 null,表示数据不是搜索数据

如果点击的品类 ID 和产品 ID 为-1,表示数据不是点击数据

针对于下单行为,一次可以下单多个商品,所以品类 ID 和产品 ID 可以是多个,id 之间采用逗号分隔,如果本次不是下单行为,则数据采用 null 表示

支付行为和下单行为类似

编号 字段名称 字段类型 字段含义
1 date String 用户点击行为的日期
2 user_id Long 用户的 ID
3 session_id String Session 的 ID
4 page_id Long 某个页面的 ID
5 action_time String 动作的时间点
6 search_keyword String 用户搜索的关键词
7 click_category_id Long 某一个商品品类的 ID
8 click_product_id Long 某一个商品的 ID
9 order_category_ids String 一次订单中所有品类的 ID 集合
10 order_product_ids String 一次订单中所有商品的 ID 集合
11 pay_category_ids String 一次支付中所有品类的 ID 集合
12 pay_product_ids String 一次支付中所有商品的 ID 集合
13 city_id Long 城市 id

需求一:TOP10热门品类

品类是指产品的分类,大型电商网站品类分多级,咱们的项目中品类只有一级,不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。

鞋 点击数 下单数 支付数

例如, 综合排名 = 点击数20%+下单数30%+支付数*50%

本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。

第一种实现方法:

object TestHostCategoryTop10T1 {
   
   

    def main(args: Array[String]): Unit = {
   
   
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("HostCategoryTop10")
        val sc = new SparkContext(sparkConf)

        // TOP10热门品类
        // 1、读取原始日志数据
        val rdd: RDD[String] = sc.textFile("datas/spark-core/user_visit_action.txt")

        // 2、统计品类的点击数量:(品类ID,点击数量)
        val clickActionRdd: RDD[String] = rdd.filter(_.split("_")(6) != "-1")
        val clickCountRdd: RDD[(String, Int)] = clickActionRdd.map((action: String) => (action.split("_")(6), 1)).reduceByKey(_ + _)

        // 3、统计品类的下单数量:(品类ID,下单数量)
        val orderActionRdd: RDD[String] = rdd.filter(_.split("_")(8) != "null")
        val orderCountRdd: RDD[(String, Int)] = orderActionRdd.flatMap(action => {
   
   
            action.split("_")(8).split(",").map((_, 1))
        }).reduceByKey(_ + _)

        // 4、统计品类的支付数量:(品类ID,支付数量)
        val payActionRdd: RDD[String] = rdd.filter(_.split("_")(10) != "null")
        val payCountRdd: RDD[(String, Int)] = payActionRdd.flatMap(action => {
   
   
            action.split("_")(10).split(",").map((_, 1))
        }).reduceByKey(_ + _)

        // 5、讲品类进行排序,并且取前十名
        // 点击数量排序,下单数量排序,支付数量排序
        // 元祖排序:先比较第一个,再比较第二个,再比较第三个,一次类推
        // (品类ID, (点击数量, 下单数量, 支付数量))
        // 连接数据 cogroup = connect + group
        val cogrouprdd: RDD[(String, (Iterable[Int], Iterable[Int], Iterable[Int]))] =
            clickCountRdd.cogroup(orderCountRdd, payCountRdd)
        val analysisRDD: RDD[(String, (Int, Int, Int))] = cogrouprdd.mapValues {
   
   
            case (clickIter, orderIter, payIter) => {
   
   
                var clickCount = 0;
                if (clickIter.iterator.hasNext) {
   
   
                    clickCount = clickIter.iterator.next()
                }

                var orderCount = 0;
                if (orderIter.iterator.hasNext) {
   
   
                    orderCount = orderIter.iterator.next()
                }

                var payCount = 0;
                if (payIter.iterator.hasNext) {
   
   
                    payCount = payIter.iterator.next()
                }

                (clickCount, orderCount, payCount)
            }
        }

        val resultRDD: Array[(String, (Int, Int, Int))] = analysisRDD.sortBy(_._2, false).take(10)

        // 6、采集
        resultRDD.foreach(println)
//        (15,(6120,1672,1259))
//        (2,(6119,1767,1196))
//        (20,(6098,1776,1244))
//        (12,(6095,1740,1218))
//        (11,(6093,1781,1202))
//        (17,(6079,1752,1231))
//        (7,(6074,1796,1252))
//        (9,(6045,1736,1230))
//        (19,(6044,1722,1158))
//        (13,(6036,1781,1161))

        sc.stop()
    }
}

第二种方法:

object TestHostCategoryTop10T2 {
   
   

    def main(args: Array[String]): Unit = {
   
   
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("HostCategoryTop10")
        val sc = new SparkContext(sparkConf)

        // TOP10热门品类
        // 1、读取原始日志数据
        val rdd: RDD[String] = sc.textFile("datas/spark-core/user_visit_action.txt")
        rdd.cache()

        // Q1:数据源被重复使用的次数过多
        // Q2:cogroup有可能存在Shuffle,性能较低
        // (品类ID,点击数量) => (品类ID,(点击数量, 0, 0))
        // (品类ID,下单数量) => (品类ID,(0, 下单数量, 0))
        // (品类ID,支付数量) => (品类ID,(0, 0, 支付数量))
        // 然后两两聚合最终形成:(品类ID, (点击数量, 下单数量, 支付数量))

        // 2、统计品类的点击数量:(品类ID,点击数量)
        val clickActionRdd: RDD[String] = rdd.filter(_.split("_")(6) != "-1")
        val clickCountRdd: RDD[(String, (Int, Int, Int))] = clickActionRdd.map((action: String) => (action.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值