pandas 分层按列随机抽样

实现一个多步骤的过程以达到根据类别分层随机抽样,然后从特定的 ID 中选取相关的样本。这涉及:

  1. 按类别分层进行随机抽样:首先,根据类别列进行分层抽样,选取一定数量的 ID。
  2. 根据选取的 ID 获取所有相关样本:从原数据集中提取包含这些 ID 的所有行。

下面的代码展示了如何用 pandas 来实现这些步骤。

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    'value': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T'],
    'category': ['cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2',
                 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2']
}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

def stratified_sample_ids(df, category_col, num_ids_per_category, random_state=None):
    sampled_ids = []
    for category, group in df.groupby(category_col):
        sampled_ids.extend(group['id'].sample(n=num_ids_per_catego
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值