Day01| 第四期-北京积分落户数据分析

最新推荐文章于 2024-07-23 17:13:11 发布

原创

最新推荐文章于 2024-07-23 17:13:11 发布 · 476 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文是学长指导的首个数据分析案例，聚焦2018年北京积分落户数据，旨在教授基本的数据分析流程。通过理解业务，确定分析维度和指标，如离散型数据的分类分析和连续型数据的分段分析。数据包括姓名、生日、公司和积分等字段，适合初学者学习数据分析思维。案例使用Python在Jupyter Notebook中进行，强调了Python在数据处理和分析上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

01 前言

今天是学长带你手把手做数据分析的第一个案例，2018年的北京积分落户数据分析，通过分析在北京通过积分落户方式的落户者的数据，为指导落户申请提供决策依据。

案例的数据和编程实现并不复杂，作为第一个案例的重点是教会大家基本的数据分析思路，这个思路也是绝大多数数据分析任务所运用的思路，可以叫做“维度指标”分析。

第一步：确定分析维度和用来描述维度属性的指标

第二步：针对指标的数据类型，如果是离散型的数据，对指标group by分类后过滤分析特征，如果是连续型的数据，将数据切成几段分析。

当然，数据分析分析维度和指标的确立是建立在对业务的理解之上，首先需要对业务进行全面的了解，之后再做分析。

知识卡片

离散型数据：其数值只能用自然数或整数单位计算的数据，如：买了几件衣服，对面坐了几个人

连续型数据：一定区间内可以任意取值、数值是连续不断的、如：人的身高，体重，取值都是在一个区间内

公众号回复“ DT15” 获取数据 “2018bj.csv” ；数据使用爬虫获取，整理过，无需进行清洗。

02 数据源观察

首先，使用excel打开csv文件，发现有以下几个字段（列名）：

id，name姓名，birthday生日，company公司名，score分数。

接下来，使用Python读取文件，对每个字段的内容进行描述分析。演示采用的编辑器是Jupyter Notebook.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。