在数据分析中,我们经常会遇到需要将DataFrame中的一列字符串数据拆分成多行的情况。例如,一个订单ID可能对应多个商品名称,而这些商品名称以逗号分隔存储在单个单元格中。本文将介绍五种不同的方法来实现这一需求,使用Python的Pandas库来处理数据。这些方法各有优缺点,适用于不同的场景和数据集大小。
DataFrame的初始状态
在介绍五种方法之前,我们先来看一下原始的DataFrame长什么样子。假设我们有以下数据:
import pandas as pd
data = {
'order_id': [1, 2, 3], 'column_name': ['value1, value2', 'value3, value4, value5', 'value6']}
df = pd.DataFrame(data)
执行上述代码后,DataFrame df
的样子如下:
order_id | column_name |
---|---|
1 | value1, value2 |
2 | value3, value4, value5 |
3 | value6 |
方法一:使用str.split
和stack
代码实现
import pandas as pd
data = {
'order_id': [1, 2, 3], 'column_name': ['value1, value2', 'value3, value4, value5', 'value6']}
df = pd.DataFrame(data, columns=['order_id', 'column_name'])
new_df = df['column_name'].str.split(', ', expand=True).stack().r