27、数据分析实战:从1.USA.gov数据到MovieLens 1M数据集

数据分析实战:从1.USA.gov数据到MovieLens 1M数据集

1. 1.USA.gov数据解析

1.1 数据背景

在2011年,URL缩短服务Bitly与美国政府网站USA.gov合作,提供了从缩短以.gov或.mil结尾链接的用户那里收集的匿名数据。当时有实时数据流和每小时的快照,这些数据以可下载的文本文件形式提供。不过到2022年,这项服务已停止,但我们保留了一个数据文件用于示例分析。

1.2 数据读取与处理

每小时快照文件中的每行数据都是JSON格式,我们可以使用Python的 json 模块将其转换为Python字典对象。以下是具体代码:

import json
path = 'datasets/bitly_usagov/example.txt'
records = [json.loads(line) for line in open(path)]

1.3 统计时区数量

1.3.1 纯Python方式

我们想要找出数据集中出现最频繁的时区( tz 字段)。首先,我们尝试使用列表推导式提取时区列表,但发现并非所有记录都有时区字段,因此需要添加检查条件:

time_zones = [rec['tz'] for rec in records if 'tz' in rec]

接下来,我们可以使用两种方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值