文章目录
- Hive数据分析实验报告
-
- 实验要求
- IP地址规划表
- 实验步骤
-
- 1 数据集预处理
- 2 数据集上传HDFS
- 3 从HDFS中导出数据集至HIVE数据库
- 4 Hive操作
-
- (1)查看user_log表数据结构
- (2)查看user_log表简单数据结构
- (3)查看日志前10个交易日志的**商品品牌**
- (4)查询前20个交易日志中购买商品时的**时间**和**商品的种类**
- (5)用聚合函数count()计算出表内有多少条行数据
- (6)在函数内部加上distinct,查出**user_id不重复**的数据有多少条
- (7)排除顾客刷单(查询**不重复的数据**)
- (8)查询双11当天有多少人**购买**了商品
- (9)品牌2661,当天**购买**此品牌商品的数量
- (10)查询多少用户当天**点击**了2661品牌的该店
- (11)查询双十一当天男女**购买**商品比例
- (12)查询某一天在该网站**购买**商品超过5次的用户id
- (13)创建姓名缩写表,其中字段大于4条,并使查询插入,最后显示姓名缩写表格数据
Hive数据分析实验报告
实验要求
1 完成本地数据user_log文件上传至HDFS中
2 完成HDFS文件上传至Hive中
用户行为日志user_log.csv,日志中的字段定义如下:
- user_id | 买家id
- item_id | 商品id
- cat_id | 商品类别id
- merchant_id | 卖家id
- brand_id | 品牌id
- month | 交易时间:月
- day | 交易事件:日
- action | 行为,取值范围{0,1,2,3},0表示点击,1表示加入购物车,2表示购买,3表示关注商品
- age_range | 买家年龄分段:1表示年龄<18,2表示年龄在[18,24],3表示年龄在[25,29],4表示年龄在[30,34],5表示年龄在[35,39],6表示年龄在[40,49],7和8表示年龄>=50,0和NULL则表示未知
- gender | 性别:0表示女性,1表示男性,2和NULL表示未知
- province| 收货地址省份
3 Hive操作
(1)查看user_log表数据结构
(2)查看user_log表简单数据结构
(3)查看日志前10个交易日志的商品品牌
(4)查询前20个交易日志中购买商品时的时间和商品的种类
(5)用聚合函数count()计算出表内有多少条行数据
(6)在函数内部加上distinct,查出user_id不重复的数据有多少条
(7)排除顾客刷单(查询不重复的数据)
(8)查询双11当天有多少人购买了商品
(9)品牌2661,当天购买此品牌商品的数量
(10)查询多少用户当天点击了2661品牌的该店
(11)查询双十一当天男女购买商品比例
(12)查询某一天在该网站购买商品超过5次的用户id
(13)创建姓名缩写表 其中字段大于4条,并使查询插入,最后显示姓名缩写表格数据
IP地址规划表
实验步骤
1 数据集预处理
- 安装unzip
yum install unzip
- 创建数据存放文件夹
mkdir /usr/local/dbtaobao/dataset
- 解压数据集zip包
cp -r /mnt/hgfs/data_format.zip /usr/local/dbtaobao/dataset/
cd /usr/local/dbtaobao/dataset/
unzip data_format.zip

- 查看user_log.csv前5行数据
head -5 user_log.csv

- 删除第一行
sed -i '1d' user_log.csv

-
提取10000条user_log中日期为11月11日的数据,并存放于small_user_log中
-
- 创建脚本predeal.sh
infile=$1
outfile