在Pandas中展开DataFrame列中的字符串至多行的五种方法

原创

已于 2024-12-02 15:52:41 修改 · 1.5k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#Python #Pandas #数据分析

于 2024-12-02 15:25:27 首次发布

在数据分析中，我们经常会遇到需要将DataFrame中的一列字符串数据拆分成多行的情况。例如，一个订单ID可能对应多个商品名称，而这些商品名称以逗号分隔存储在单个单元格中。本文将介绍五种不同的方法来实现这一需求，使用Python的Pandas库来处理数据。这些方法各有优缺点，适用于不同的场景和数据集大小。

DataFrame的初始状态

在介绍五种方法之前，我们先来看一下原始的DataFrame长什么样子。假设我们有以下数据：

import pandas as pd

data = {
   
   'order_id': [1, 2, 3], 'column_name': ['value1, value2', 'value3, value4, value5', 'value6']}
df = pd.DataFrame(data)

执行上述代码后，DataFrame df 的样子如下：

order_id	column_name
1	value1, value2
2	value3, value4, value5
3	value6

方法一：使用`str.split`和`stack`

代码实现

import pandas as pd

data = {
   
   'order_id': [1, 2, 3], 'column_name': ['value1, value2', 'value3, value4, value5', 'value6']}
df = pd.DataFrame(data, columns=['order_id', 'column_name'])
new_df = df['column_name'].str.split(', ', expand=True).stack().r