大数据项目实战之在线教育(01数仓需求)

第1章 数据仓库概念

  数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

  数据仓库是出于分析报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业务流程改进、监控时间、成本、质量以及控制。

第2章 项目需求架构设计

2.1 项目需求分析

  一、数据采集平台搭建

  二、实现数据仓库分层的搭建

  三、实现数据清洗、聚合、计算等操作

  四、统计各指标,如统计通过各地址跳转注册的用户人数、统计各平台的用户人数、统计支付金额topN的用户

2.2 项目框架

2.2.1 技术选型

   一、数据存储:Hdfs

   二、数据处理:Hive、Spark

   三、任务调度:Azkaban

2.2.2 流程设计

2.2.3 框架版本选型

 

 

第3章  用户注册模块需求

3.1原始数据格式及字段含义

1.baseadlog 广告基础表原始json数据

{

"adid": "0",     //基础广告表广告id

"adname": "注册弹窗广告0",  //广告详情名称

"dn": "webA"     //网站分区

}

  1. basewebsitelog 网站基础表原始json数据

{

"createtime": "2000-01-01",  

"creator": "admin",

"delete": "0",

"dn": "webC",  //网站分区

"siteid": "2",  //网站id  

"sitename": "114",  //网站名称

"siteurl": "www.114.com/webC"  //网站地址

}

  1. memberRegtype 用户跳转地址注册表

{

"appkey": "-",

"appregurl": "http:www.webA.com/product/register/index.html",  //注册时跳转地址

"bdp_uuid": "-",

"createtime": "2015-05-11",

"dt":"20190722",  //日期分区

"dn": "webA",    //网站分区

"domain": "-",

"isranreg": "-",

"regsource": "4", //所属平台 1.PC  2.MOBILE  3.APP   4.WECHAT

"uid": "0", //用户id

"websiteid": "0" //对应basewebsitelog 下的siteid网站

}

  1. pcentermempaymoneylog 用户支付金额表

{

"dn": "webA",  //网站分区

"paymoney": "162.54", //支付金额

"siteid": "1",  //网站id对应 对应basewebsitelog 下的siteid网站

"dt":"20190722",  //日期分区

"uid": "4376695",  //用户id

"vip_id": "0" //对应pcentermemviplevellog vip_id

}

  1. pcentermemviplevellog用户vip等级基础表

{

"discountval": "-",

"dn": "webA",  //网站分区

"end_time": "2019-01-01",   //vip结束时间

"last_modify_time": "2019-01-01",

"max_free": "-",

"min_free": "-",

"next_level": "-",

"operator": "update",

"start_time": "2015-02-07",  //vip开始时间

"vip_id": "2",  //vip id

"vip_level": "银卡"  //vip级别名称

}

  1. memberlog 用户基本信息表

{

"ad_id": "0",  //广告id              

"birthday": "1981-08-14",  //出生日期

"dt":"20190722",  //日期分区

"dn": "webA",  //网站分区

"email": "[email protected]", 

"fullname": "王69239",  //用户姓名

"iconurl": "-",

"lastlogin": "-",

"mailaddr": "-",

"memberlevel": "6",  //用户级别

"password": "123456", //密码

"paymoney": "-",  

"phone": "13711235451",  //手机号

"qq": "10000",  

"register": "2016-08-15",    //注册时间

"regupdatetime": "-",

"uid": "69239",  //用户id

"unitname": "-",

"userip": "123.235.75.48",  //ip地址

"zipcode": "-"

}

其余字段为非统计项 直接使用默认值“-”存储即可

3.2数据分层

在hadoop集群上创建 ods目录

hadoop dfs -mkdir -p /user/atguigu/ods

在hive里分别建立三个库,dwd、dws、ads  分别用于存储etl清洗后的数据、宽表和拉链表数据、各报表层统计指标数据。

create database dwd;

create database dws;

create database ads;

各层级  ods    存放原始数据

        dwd    结构与原始表结构保持一致,对ods层数据进行清洗

        dws    以dwd为基础进行轻度汇总

        ads   

一、项目简介 本项目教程以国内电商巨头实际业务应用场景为依托,同时以阿里云ECS服务器为技术支持,紧跟大数据主流场景,对接企业实际需求,对电商的常见实战指标进行了详尽讲解,让你迅速成长,获取最前沿的技术经验。 二、项目架构 版本框架:Flume、DateHub、DataWorks、MaxCompute、MySql以及QuickBI等; Flume:大数据领域被广泛运用的日志采集框架; DateHub:类似于传统大数据解决方案中Kafka的角色,提供了一个据队列功能。对于离线计算,DataHub除了供了一个缓冲的队列作用。同时由于DataHub提供了各种与其他阿里云上下游产品的对接功能,所以DataHub又扮演了一个据的分发枢纽工作; 据上传和下载通道,提供SQL及MapReduce等多种计算分析服务,同时还提供完善的安全解决方案; DataWorks:是基于MaxCompute计算引擎,从工作室、车间到工具集都齐备的一站式大数据工厂,它能帮助你快速完成据集成、开发、治理、服务、质量、安全等全套据研发工作; QuickBI & DataV:专为云上用户量身打造的新一代智能BI服务平台。 三、项目场景 项目广泛应用于大数据领域,该项目技术可以高度适配电商、金融、医疗、在线教育、传媒、电信、交通等各领域; 四、项目特色 本课程结合国内多家企业实际项目经验。从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建基于阿里云服务器的大数据集群。采用阿里云ECS服务器作为据平台,搭建高可用的、高可靠的Flume据采集通道,运用阿里云DateHub构建中间缓冲队列并担任据分发枢纽将据推送至阿里自主研发的DataWorks对据进行分层处理,采用MaxCompute作为处理海量据的方案,将计算结果保存至MySQL并结合阿里的QuickBI工作做最终据展示。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值