机器学习实例(六)美国波士顿地区房价预测

回归问题预测的目标是连续变量

数据描述

# 从sklearn.datasets导入波士顿房价数据读取器
from sklearn.datasets import load_boston

# 从读取房价数据存储在变量boston中
boston = load_boston

# 输出数据描述
boston.DESCR

Number of Instances: 506
Number of Attributes: 13 numeric/categorical predictive.Median Value (attribute 14) is usually the target.
Missing Attribute Values: None
由上述可知,该数据集共有506条美国波士顿地区房价的数据,每条数据包括对指定房屋的13项数值型特征描述和目标房价(平均值)。另外,该数据中没有缺失的属性/特征值

数据处理

from sklearn.model_selection import train_test_split
import numpy as np

X = boston.data
y = boston.target

# 随机采样25%的数据构建测试样本,其余作为训练样本
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)

# 分析回归目标值的差异
print("The max target value is", np.max(boston.target))
print("The min target value is", np.min(boston.target))
print("The average target value is", np.mean(boston.target))

在这里插入图片描述
在上述对数据的探查中可以发现,预测目标房价之间的差异较大,因此需要对特征以及目标值进行标准化处理

# 从sklearn.preprocessing导入数据标准化模块
from sklearn.preprocessing import StandardScaler

# 分别初始化对特征和目标值的标准化器
ss_X = StandardScaler()
ss_y = StandardScaler()

# 分别对训练和测试数据的特征以及目标值进行标准化处理
X_train = ss_X.fit_transform(X_train)
X_test = ss_X.transform(X_test)
y_train = ss_y.fit_transform(y_train.reshape(-1,1))
y_test = ss_y.transform(y_test.reshape(-1,1))

标准化后的训练target集
在这里插入图片描述
标准化后的验证target集
在这里插入图片描述

尝试线性模型

这里尝试使用线性回归模型LinearRegression和SGDRegressor

# 从sklearn.linear_model导入LinearRegression
from sklearn.linear_model import LinearRegression

# 使用默认配置初始化线性回归器LinearRegression
lr = LinearRegression()

# 使用训练数据进行参数估计
lr.fit(X_train, y_train)

# 对测试数据进行回归预测
lr_y_predict = lr.predict(X_test)

# 从sklearn.linear_model导入SGDRegressor
from sklearn.linear_model import SGDRegressor

# 使用默认配置初始化线性回归器SGDRegressor
sgdr = SGDRegressor()

# 使用训练数据进行参数估计
sgdr.fit(X_train, y_train)

# 对测试数据进行回归预测
sgdr_y_predict = sgdr.predict(X_test)

线性模型评估

通过平均绝对误差、均方误差、R-squared评价模型
LinearRegression的评估

# 使用LinearRegression模型自带的评估模块,输出评估结果
print('The value of default measurement of LinearRegression is', lr.score(X_test, y_test))

# 从sklearn.metrics依次导入r2_score、mean_squared_error以及mean_absolute_error用于回归性能的评估
from sklearn.metrics 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值