超市用户的k-means聚类处理

本文通过Python的pandas和sklearn库对超市用户的消费数据进行预处理,包括缺失值检测、异常值剔除及特征构建。利用箱线图分析剔除异常值,并通过标准化处理使数据在同一量级。最后,运用K-means算法对处理后的数据进行聚类分析,展示聚类结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导入超市用户的数据

import pandas as pd
from sklearn.preprocessing import StandardScaler #标准差标准化

com = pd.read_csv('./company.csv',encoding='ansi')

导入剔除异常值的函数

def box_analysis(data):
    '''
    进行箱线图分析,剔除异常值
    :param data:
    :return:
    '''
    qu = data.quantile(0.75)
    ql = data.quantile(0.25)

    iqr = qu - ql

    #上限与下限  1.5可以微调
    up = qu+1.5*iqr
    low = ql-1.5*iqr

    #进行比较运算
    bool_id_1 = data<=up
    bool_id_2 = data>=low

    bool_num = bool_id_1 & bool_id_2
    return bool_num

进行缺失值检测

print(com.isnull().sum())

检测结果无缺失值

筛选有用特征,切片处理

data = com.iloc[:,-2:]

箱线图分析来进行异常值检测

按照平均每次消费金额进行异常值去除

bood_id_1 = box_analysis(data.iloc[:,0])
data = data.loc[bood_id_1,:]

按照平均消费周期进行异常值去除

bood_id_2 = box_analysis(data.iloc[:,1])
data = data.loc[bood_id_2,:]

构建需要特征

data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

标准化数据,量级不大,暂时不处理量级

    stand = StandardScaler()  #创建标准差示例
    #先计算每一列的均值、标准差再进行转化数据
    x = stand.fit_transform(data)  #进行标准化

 

把上面数据处理部分封装进函数

def built_data():
    #缺失值检测
    # print(com.isnull().sum())

    #筛选有用特征,切片处理
    data = com.iloc[:,-2:]
    # print(data)

    #异常值检测,箱线图分析
    #按照平均每次消费金额进行异常值去除
    bood_id_1 = box_analysis(data.iloc[:,0])
    data = data.loc[bood_id_1,:]
    #按照平均消费周期进行异常值去除
    bood_id_2 = box_analysis(data.iloc[:,1])
    data = data.loc[bood_id_2,:]

    #构建需要特征
    data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']
    # print(data)

    #标准化数据,量级不大,暂时不处理量级
    #标准化数据
    stand = StandardScaler()  #创建标准差示例
    #先计算每一列的均值、标准差再进行转化数据
    x = stand.fit_transform(data)  #进行标准化
    return data.values

绘图部分函数如下

def show_res_km(data,y_predict,center):
    '''
    进行结果展示
    :param data:原始数据
    :param y_predict:预测标签
    :param center:最终的聚类中心
    :return:
    '''
    plt.figure()

    #获取原始数据的行数
    index_num = data.shape[0]

    #
    colors = ['r','g','b','y']
    for i in range(index_num):
        plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])
    #散点图的绘制,一个一个绘制

    #聚类中心的位置
    #b的话是描点划线,bx的话是画点但是不描线
    plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

    plt.show()

 

调用函数来进行聚类

data = built_data()
#导包实现
k=3
km = KMeans(n_clusters=k)
#训练数据
km.fit(data)

#进行预测 ,y_predict预测标签
y_predict = km.predict(data)

#获取聚类中心
center = km.cluster_centers_
print('预测值:\n',y_predict)
print('聚类中心:\n',center)

show_res_km(data.values,y_predict,center)

结果如下

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值