01 前言
今天是学长带你手把手做数据分析的第一个案例,2018年的北京积分落户数据分析,通过分析在北京通过积分落户方式的落户者的数据,为指导落户申请提供决策依据。
案例的数据和编程实现并不复杂,作为第一个案例的重点是教会大家基本的数据分析思路,这个思路也是绝大多数数据分析任务所运用的思路,可以叫做“维度指标”分析。
第一步:确定分析维度和用来描述维度属性的指标
第二步:针对指标的数据类型,如果是离散型的数据,对指标group by分类后过滤分析特征,如果是连续型的数据,将数据切成几段分析。
当然,数据分析分析维度和指标的确立是建立在对业务的理解之上,首先需要对业务进行全面的了解,之后再做分析。
知识卡片
离散型数据:其数值只能用自然数或整数单位计算的数据,如:买了几件衣服,对面坐了几个人
连续型数据:一定区间内可以任意取值、数值是连续不断的、如:人的身高,体重,取值都是在一个区间内
公众号回复“ DT15” 获取数据 “2018bj.csv” ;数据使用爬虫获取,整理过,无需进行清洗。
02 数据源观察
首先,使用excel打开csv文件,发现有以下几个字段(列名):
id,name姓名,birthday生日,company公司名,score分数。
接下来,使用Python读取文件,对每个字段的内容进行描述分析。演示采用的编辑器是Jupyter Notebook.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt