零基础入门数据挖掘-Task1 赛题理解

本文是零基础数据挖掘系列的第一篇,主要介绍一个二手车交易价格预测的赛题。赛题要求预测二手车的交易价格,数据集包括40w+条记录,包含匿名特征。评价指标为MAE。文章讲解了数据概况、预测指标,并提供数据读取和结果评价的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要内容

理解赛题数据和目标,清楚评分体系。

赛题

零基础入门数据挖掘 - 二手车交易价格预测。
链接:零基础入门数据挖掘 - 二手车交易价格预测

了解赛题

赛题概况

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

数据概况

一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv

  • SaleID - 销售样本ID
  • name - 汽车编码
  • regDate - 汽车注册时间
  • model - 车型编码
  • brand - 品牌
  • bodyType - 车身类型
  • fuelType - 燃油类型
  • gearbox - 变速箱
  • power - 汽车功率
  • kilometer - 汽车行驶公里
  • notRepairedDamage - 汽车有尚未修复的损坏
  • regionCode - 看车地区编码
  • seller - 销售方
  • offerType - 报价类型
  • creatDate - 广告发布时间
  • price - 汽车价格
  • v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征,包含v0-14在内15个匿名特征】
    数字全都脱敏处理,都为label encoding形式,即数字形式

预测指标

本赛题的评价标准为MAE(Mean Absolute Error):
M A E = ∑ i = 1 n ∣ y i − y ^ i ∣ n MAE = \frac {\sum_{i=1}^n|y_i-\widehat{y}_i|}n{} MAE=ni=1nyiy i其中, y i y_i yi代表第i个样本的真实值, y ^ i \widehat{y}_i y i代表第i个样本的预测值。
一般问题评价指标说明:
评估指标的定义:

评估指标即是我们对于一个模型效果的数值型量化。(有点类似与对于一个商品评价打分,而这是针对于模型效果和理想效果之间的一个打分)

一般来说分类和回归问题的评价指标有如下一些形式:
分类算法常见的评估指标:

  • 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
  • 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。

回归预测类常见的评估指标:

  • 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), 可决系数 R 2 R^2 R2(R-Square)

平均绝对误差(MAE)能够更好地反映预测值与真实值误差的实际情况,其计算公式:
M A E = 1 N ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{N}\sum_{i=1}^n|y_i-\widehat{y}_i| MAE=N1i=1ny

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值