算法学习
、4对1辅导
、论文辅导
、核心期刊
项目的代码和数据下载
可以通过公众号
滴滴我
文章目录
- 项目背景
- 数据描述
- 旧金山员工薪水探索性分析
- 0、数据读取
- 1、平均的基本工资是多少?
- 2、在数据集中超时支付的最高金额是多少?
- 3、约瑟夫·德里斯科尔的职务是什么?注意:使用全部大写,否则您可能会得到不匹配的答案(还有一个小写的Joseph Driscoll)
- 4、约瑟夫·德里斯科尔挣多少钱(包括福利)?
- 5、收入最高的人(包括福利)是谁?
- 6、最低工资(含福利)人员的姓名?你注意到他/她的薪水有些奇怪吗?
- 7、每年所有员工的平均工资是多少?(2011 - 2014)?
- 8、有多少个职称?
- 9、最常见的5种工作是什么?
- 10、2013年有多少职位只由一个人担任?(例如:2013年只出现过一次的职位头衔?)
- 11、有多少人在他们的工作头衔中有Chief这个词?(这是相当棘手的)
- 12、奖金:职位名称字符串的长度和薪水之间有相关性吗?
项目背景
旧金山,这座充满科技与创新活力的城市,如同璀璨的明珠镶嵌在加利福尼亚州的海岸线上。在其繁华的表象之下,隐藏着一个值得深入探究的领域 —— 员工薪水。对旧金山员工薪水进行探索性分析,犹如开启一场神秘的宝藏探寻之旅。
数据描述
该数据共14万条
数据,表字段共13个
。分别是Id
、EmployeeName
、JobTitle
、BasePay
、OvertimePay
、OtherPay
、Benefits
、TotalPay
、TotalPayBenefits
、Year
、Notes
、Agency
、Status
。
以下是表的部分数据:
旧金山员工薪水探索性分析
0、数据读取
导入Pandas包
import pandas as pd
读取并查看数据
sal = pd.read_csv('SF_Salaries.csv')
sal.head()
查看数据类型
sal.info() # 148654个
1、平均的基本工资是多少?
sal['BasePay'].mean()
66325.4488404877
2、在数据集中超时支付的最高金额是多少?
sal['OvertimePay'].max()
245131.88
3、约瑟夫·德里斯科尔的职务是什么?注意:使用全部大写,否则您可能会得到不匹配的答案(还有一个小写的Joseph Driscoll)
sal[sal['EmployeeName']=='JOSEPH DRISCOLL']['JobTitle']
24 CAPTAIN, FIRE SUPPRESSION
Name: JobTitle, dtype: object
4、约瑟夫·德里斯科尔挣多少钱(包括福利)?
sal[sal['EmployeeName']=='JOSEPH DRISCOLL']['TotalPayBenefits']
24 270324.91
Name: TotalPayBenefits, dtype: float64
5、收入最高的人(包括福利)是谁?
sal[sal['TotalPayBenefits']== sal['TotalPayBenefits'].max()] #['EmployeeName']
# or
# sal.loc[sal['TotalPayBenefits'].idxmax()]
6、最低工资(含福利)人员的姓名?你注意到他/她的薪水有些奇怪吗?
sal[sal['TotalPayBenefits']== sal['TotalPayBenefits'].min()] #['EmployeeName']
# or
# sal.loc[sal['TotalPayBenefits'].idxmax()]['EmployeeName']
## ITS NEGATIVE!! VERY STRANGE
7、每年所有员工的平均工资是多少?(2011 - 2014)?
sal.groupby('Year').mean()['BasePay']
8、有多少个职称?
sal['JobTitle'].nunique()
2159
9、最常见的5种工作是什么?
sal['JobTitle'].value_counts().head(5)
10、2013年有多少职位只由一个人担任?(例如:2013年只出现过一次的职位头衔?)
sum(sal[sal['Year']==2013]['JobTitle'].value_counts() == 1)
202
11、有多少人在他们的工作头衔中有Chief这个词?(这是相当棘手的)
def chief_string(title):
if 'chief' in title.lower():
return True
else:
return False
sum(sal['JobTitle'].apply(lambda x: chief_string(x)))
627
12、奖金:职位名称字符串的长度和薪水之间有相关性吗?
sal['title_len'] = sal['JobTitle'].apply(len)
sal[['title_len','TotalPayBenefits']].corr() # No correlation.