Day01| 第四期-北京积分落户数据分析

本文是学长指导的首个数据分析案例,聚焦2018年北京积分落户数据,旨在教授基本的数据分析流程。通过理解业务,确定分析维度和指标,如离散型数据的分类分析和连续型数据的分段分析。数据包括姓名、生日、公司和积分等字段,适合初学者学习数据分析思维。案例使用Python在Jupyter Notebook中进行,强调了Python在数据处理和分析上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                    01    前言                   



今天是学长带你手把手做数据分析的第一个案例,2018年的北京积分落户数据分析,通过分析在北京通过积分落户方式的落户者的数据,为指导落户申请提供决策依据。

案例的数据和编程实现并不复杂,作为第一个案例的重点是教会大家基本的数据分析思路,这个思路也是绝大多数数据分析任务所运用的思路,可以叫做“维度指标”分析。

第一步:确定分析维度和用来描述维度属性的指标

第二步:针对指标的数据类型,如果是离散型的数据,对指标group by分类后过滤分析特征,如果是连续型的数据,将数据切成几段分析。

当然,数据分析分析维度和指标的确立是建立在对业务的理解之上,首先需要对业务进行全面的了解,之后再做分析。

知识卡片

离散型数据:其数值只能用自然数或整数单位计算的数据,如:买了几件衣服,对面坐了几个人

连续型数据:一定区间内可以任意取值、数值是连续不断的、如:人的身高,体重,取值都是在一个区间内

公众号回复“ DT15” 获取数据 “2018bj.csv” ;数据使用爬虫获取,整理过,无需进行清洗。

                    02 数据源观察                     


首先,使用excel打开csv文件,发现有以下几个字段(列名):

id,name姓名,birthday生日,company公司名,score分数。

接下来,使用Python读取文件,对每个字段的内容进行描述分析。演示采用的编辑器是Jupyter Notebook.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值