kaggle泰坦尼克数据之数据清洗及特征处理

最新推荐文章于 2023-12-31 21:35:32 发布

qq_36226141

最新推荐文章于 2023-12-31 21:35:32 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python数据分析文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_36226141/article/details/117908748

2 第二章：数据清洗及特征处理

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的亚子。

2.1 缺失值观察与处理

我们拿到的数据经常会有很多缺失值，比如我们可以看到Cabin列存在NaN，那其他列还有没有缺失值，这些缺失值要怎么处理呢

2.1.1 任务一：缺失值观察

(1) 请查看每个特征缺失值个数

查看数据信息

df.info()

在这里插入图片描述
查看缺失值个数

df.isnull().sum()

在这里插入图片描述
(2) 请查看Age， Cabin， Embarked列的数据

df.loc[:,['Age', 'Cabin', 'Embarked']].head()

在这里插入图片描述

2.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路

(2) 请尝试对Age列的数据的缺失值进行处理

(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理

#使用年龄均值填补缺失值
df.loc[:,"Age"].fillna(df.loc[:,"Age"].mean(), inplace = True)
df.loc[:,"Age"].isnull().sum()
#删除Cabin列
df.drop("Cabin", axis=1, inplace=True)
#删除Embarked缺失行
df.dropna(inplace

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_36226141

关注关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

数据分析第二回-数据清洗与特征处理

qq_45019698的博客

03-17

1318

数据清洗与特征处理本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务，实战数据分析全流程。教程内容开源地址: github: https://github.com/datawhalechina/hands-on-data-analysis gitee:https://gitee.com/datawhalechina/hands-on-data-analysis 接下来要重点研究一下数据清洗，一般我们拿到数据的时候，有很多错误的情况。所谓的错误，就是数据中有缺失值，

【数据分析11天打卡DAY2】第二章 数据清洗及特征处理2.1

vegetable6的博客

09-15

805

数据分析打卡第二天

参与评论您还未登录，请先登录后发表或查看评论

第二章：数据清洗

Gillian的博客

06-22

433

通过数据源搜索的数据一定要经过清洗，才能让数据发挥价值。保证数据分析结果的准确性

第二章：数据清洗及特征处理

weixin_44370085的博客

03-17

1528

数据清洗与特征处理

离线数据处理任务二：数据清洗

taoyundao_1的博客

12-31

2931

若该数据在进入dwd层时发生了合并修改，则dwd_insert_time时间不变，dwd_modify_time存当前操作时间，其余列存最新的值。//（4）将ods.customer_inf 与dwd.customer_inf表数据合并并去重，数据存入表dwd.customer1_inf。19991 曾凤兰 20221230。19998 赵丹丹 20221230。19991 曾凤兰 20221230。19998 赵丹丹 20221230。

kaggle titanic数据集

最新发布

02-22

总的来说，“kaggle titanic数据集”是一个极好的实践平台，涵盖了数据清洗、特征工程、模型选择、模型评估等数据分析的全流程，是入门和提升数据科学技能的理想选择。通过解决这个问题，不仅可以锻炼我们的编程能力...

kaggle泰坦尼克数据titanic

05-08

总的来说，"kaggle泰坦尼克数据titanic"挑战是一次了解和实践机器学习流程的绝佳机会，涵盖了数据理解、数据预处理、特征工程、模型构建、模型评估和结果提交等多个环节。对于初学者，这是一个很好的起点；对于经验...

《Pandas数据处理》（二）——数据清洗及特征处理

qq_41430142的博客

08-18

3988

【回顾&引言】前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理，让大家了解数据分析的一些操作，主要做了数据的各个角度的观察。那么在这里，我们主要是做数据分析的流程性学习，主要是包括了数据清洗以及数据的特征处理，数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。开始之前，导入numpy、pandas包和数据 #加载所需的库 import numpy as np import pandas as pd #加载数据train.csv data=pd.read_csv(

DataWhale

liyingjiehh的博客

12-23

306

Day 3Information Theory BasisDecision TreeDifferent classification algorithmsModel evaluationThe sklearn parametersReference Information Theory Basis Entropy The entropy H(x)H(x)H(x) of a discrete r...

Datawhale（Task 1）

qq_62330589的博客

02-16

274

所谓大数据技术，是指伴随着大数据的采集、传输、处理和应用的相关技术，是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理，从而获得分析和预测结果的一系列数据处理和分析技术。用于数据库序列化的系统，它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能，数据的价值在于对所占有的数据进行深入分析，实现开发利用，从中发现新知识、创造新价值，提升新能力，取得实实在在的工作成效。

Datawhale-Excel1

yxyibb

04-22

231

基础界面了解Excel基础界面和对应功能文件操作新建workbook 新建sheet/移动sheet/重命名sheet/修改sheet颜色 sheet种类: 工作表/图表/宏表等保存为xls/xlsx/csv 基础单元格操作输入数据数据格式合并单元格自动填充选择性粘贴去重分列排序筛选条件格式插入下拉列表行高列宽设...

Datawhale（Task 2）

qq_62330589的博客

03-07

267

对于该数据块，名称节点返回保存该数据块的所有数据节点的地址，同时，根据距离客户端的远近对数据节点进行排序；同时HDFS是Hadoop和其他组件的数据存储层，运行在由价格廉价的商用机器组成的集群上的，而价格低廉的机器发生故障的几率比较高，因此HDFS在设计上采取了多种机制，在硬件故障的情况下保障数据的完整性。负责数据的存储和读取。负责文件和目录的创建、删除和重命名等，同时管理着数据节点和文件块的映射关系，因此客户端只有访问名称节点才能找到请求的文件块所在的位置，从而到相应位置读取所需的文件块；

Datawhale(爬虫)：：腾讯新闻爬取；拔高：知乎爬虫

qq_37194898的博客

04-27

331

要求 1、了解ajax加载 2、通过chrome开发工具，触发请求，并获取数据 3、用到selenium库实战 1、用selenium模拟浏览器操作，获得ul/li下面的data 2、用beautiful soup4解析缓存下来的data 3、加载pandas库，将data导出至csv文件 import time from selenium import webdriver driver=we...

Datawhale-零基础入门数据挖掘 - 二手车交易价格预测-模型融合

qq_44074961的博客

04-04

476

Datawhale-零基础入门数据挖掘 - 二手车交易价格预测-模型融合今天在一个比赛的top1的代码中看到了这样一句话分享给大家：实际在竞赛中，你花下的时间应该通常是：特征工程 > 模型融合 > 算法模型 > 参数调整或者是：模型融合 > 特征工程 > 算法模型 > 参数调整。由此可以看出一个好的比赛成绩，特征工程与模型融合的重要性。 1.模型融合目标...

Datawhale《深度学习-NLP》Task10- Attention原理

mxs1123的博客

03-21

3653

参考： transformer github实现：GitHub - Kyubyong/transformer: A TensorFlow Implem... transformer pytorch分步实现：The Annotated Transformer 搞懂Transformer结构，看这篇PyTorch实现就够了：搞懂Transformer结构，看这篇PyTorch实现就够了！ - ...

金融风控-贷款违约预测之赛题理解

zhangxiaolinxin的博客

09-14

594

1、概况赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 2、数据 id 为贷款清单分配的唯一信用证标识 loanAmnt 贷款金额 term 贷款期限（year） interestRate 贷款利率 inst

Datawhale - 数据挖掘训练营 - Task2 EDA数据探索性分析

amber11211的博客

03-24

486

数据分析流程及示例代码总结载入分析库 import warnings warnings.filterwarnings('ignore') #导入warnings包，利用过滤器来实现忽略警告语句。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns #图形可视化l...