数据处理：合并、排序、分类、去重与删除操作

立即解锁

发布时间: 2025-09-03 00:34:15 阅读量: 8 订阅数: 20

Python探索性数据分析精粹

# 数据处理：合并、排序、分类、去重与删除操作 ## 1. 数据合并 ### 1.1 合并与拼接的区别合并数据和拼接数据有所不同。拼接可以使用 pandas 的 `concat` 方法，它能拼接多个数据集，但要求数据集行数相同。而合并需要两个数据集有共同字段。例如在 SQL 或 join 命令中，经常会用到数据合并操作，关系型数据库中的数据就常需要进行合并。 ### 1.2 合并操作的关键概念 - **连接键列**：两个数据集中具有匹配值的公共列，用于连接数据集，列名不一定要相同。 - **连接类型**： - **左连接**：保留左数据框的所有行，右数据框中不匹配的值在结果中以空值或 `NaN` 表示。 - **右连接**：保留右数据框的所有行，左数据框中不匹配的值在结果中以空值或 `NaN` 表示。 - **内连接**：只保留左右数据框中的公共值，不返回空值或 `NaN`。 - **外连接/全外连接**：保留左右数据框的所有行，不匹配的值以 `NaN` 表示。 ### 1.3 操作步骤 #### 1.3.1 准备数据将 `marketing_campaign_merge1.csv` 和 `marketing_campaign_merge2.csv` 文件放在指定的数据子文件夹中。 #### 1.3.2 代码实现 ```python import pandas as pd # 加载数据 marketing_sample1 = pd.read_csv("data/marketing_campaign_merge1.csv") marketing_sample2 = pd.read_csv("data/marketing_campaign_merge2.csv") # 查看数据 print(marketing_sample1.head()) print(marketing_sample1.shape) print(marketing_sample2.shape) # 合并数据 merged_data = pd.merge(marketing_sample1, marketing_sample2, on="ID") # 查看合并结果 print(merged_data.head()) print(merged_data.shape) ``` ### 1.4 更多说明当两个数据集中的公共字段名称不同时，可以使用 `left_on` 和 `right_on` 参数来处理。 ## 2. 数据排序 ### 2.1 排序的作用排序是将数据按特定顺序排列，有助于快速发现数据中的模式。在 pandas 中，可以使用 `sort_values` 方法对数据集进行排序。 ### 2.2 操作步骤 #### 2.2.1 准备数据使用营销活动数据（可从 Kaggle 或 GitHub 仓库获取）。 #### 2.2.2 代码实现 ```python import pandas as pd # 加载数据并筛选相关列 marketing_data = pd.read_csv("data/marketing_campaign.csv") marketing_data = marketing_data[['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'Recency', 'NumStorePurchases', 'NumWebVisitsMonth']] # 查看数据 print(marketing_data.head(2).T) print(marketing_data.dtypes) print(marketing_data.shape) # 按商店购买次数降序排序 sorted_data = marketing_data.sort_values('NumStorePurchases', ascending=False) # 查看排序结果 print(sorted_data[['ID', 'NumStorePurchases']]) ``` ### 2.3 更多说明可以按多个列进行排序，只需将列名作为列表传入 `sort_values` 方法。排序不仅适用于数值列，也适用于字符列。 ## 3. 数据分类 ### 3.1 分类的意义数据分类即分箱操作，将数值数据分组到更小的区间（箱）中，每个箱成为一个分类值。分箱有助于发现直接处理单个数值难以发现的信息，还能处理异常值或减少观测误差的影响。 ### 3.2 操作步骤 #### 3.2.1 准备数据使用完整的营销活动数据。 #### 3.2.2 代码实现 ```python import pandas as pd # 加载数据并筛选相关列 marketing_data = pd.read_csv("data/marketing_campaign.csv") marketing_data = marketing_data[['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome', 'Teenhome' ```

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据处理：合并、排序、分类、去重与删除操作

相关推荐

专栏目录

数据处理：合并、排序、分类、去重与删除操作

相关推荐

【大数据处理】海量数据处理经典面试题解析：涵盖URL匹配、查询频度排序及热门查询统计

大数据Mapreduce（1）编程实现文件合并和去重操作.docx

用于RFID系统数据处理的排序邻居算法性能分析.pdf

Linux文本处理技巧：掌握排序、去重及格式转换命令

JavaScript洁净室功能：数组排序与去重技术解析

MapReduce编程实践：文件合并与去重、排序与信息挖掘

MapReduce编程实战：文件合并与去重操作详解

链表数据结构实践：循环检测、去重与交叉合并

【Python简化技巧】：快速排序链表去重流程

SparkCore与SparkSQL实战：数据分析与去重应用

如何在 SAP BTP Java 应用里使用 SAP HANA 数据库

perl-Time-Piece-1.31-420.el8.tar.gz

专栏目录

最新推荐

信息系统集成与测试实战

开源安全工具：Vuls与CrowdSec的深入剖析

实时资源管理：Elixir中的CPU与内存优化

RHEL9系统存储、交换空间管理与进程监控指南

Ansible高级技术与最佳实践

容器部署与管理实战指南

轻量级HTTP服务器与容器化部署实践

基于属性测试的深入解析与策略探讨

构建交互式番茄钟应用的界面与功能

PowerShell7在Linux、macOS和树莓派上的应用指南