Machine Learning——sklearn系列（一）——回归

最新推荐文章于 2024-09-06 16:38:31 发布

wa1tzy

最新推荐文章于 2024-09-06 16:38:31 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： AI 机器学习文章标签：数据挖掘 python 机器学习数据分析人工智能

本文链接：https://blog.csdn.net/wa1tzy/article/details/107174283

文章目录

前言
一、基础结构
- 1.1 简单调参
- 1.2 调参利器
二、回归（可以理解为拟合）

前言

sciket-learn官网链接：https://scikit-learn.org/stable/
sciket-learn官网文档中文版：https://sklearn.apachecn.org/
推荐一本书PRML：PRML为何是机器学习的经典书籍中的经典?- 知乎
scikit-learn，又写作sklearn，是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流机器学习算法。

sklearn优点：

简单有效地数据挖掘和数据分析工具
可供所有人访问，并可在各种环境中重复使用
基于Numpy，SciPy和matplotlib构建
开源，商业上可用-BSD许可证

常用模块

sklearn中常用的模块有分类、回归、聚类、降维、模型选择、预处理。

分类：识别某个对象属于哪个类别，常用的算法有：SVM（支持向量机）、nearest neighbors（最近邻）、random forest（随机森林），常见的应用有：垃圾邮件识别、图像识别。
回归：预测与对象相关联的连续值属性，常见的算法有：SVR（支持向量机）、 ridge regression（岭回归）、Lasso，常见的应用有：药物反应，预测股价。
聚类：将相似对象自动分组，常用的算法有：k-Means、 spectral clustering、mean-shift，常见的应用有：客户细分，分组实验结果。
降维：减少要考虑的随机变量的数量，常见的算法有：PCA（主成分分析）、feature selection（特征选择）、non-negative matrix factorization（非负矩阵分解），常见的应用有：可视化，提高效率。
模型选择：比较，验证，选择参数和模型，常用的模块有：grid search（网格搜索）、cross validation（交叉验证）、 metrics（度量）。它的目标是通过参数调整提高精度。
预处理：特征提取和归一化，常用的模块有：preprocessing，feature extraction，常见的应用有：把输入数据（如文本）转换为机器学习算法可用的数据。

一、基础结构

# 基础结构.py
#选模型+调参
import numpy as np
from sklearn import neighbors, datasets, preprocessing# 数据预处理
from sklearn.model_selection import train_test_split# 数据切分
from sklearn.metrics import accuracy_score # 指标评估
from sklearn.model_selection import cross_val_score# 模型选择

np.random.RandomState(0)# # 随机数定下来

# 加载数据
iris = datasets.load_iris()

# 划分训练集与测试集
x, y = iris.data, iris.target
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)# 30%做测试集

# 数据预处理
scaler = preprocessing.StandardScaler().fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

# 创建模型
knn = neighbors.KNeighborsClassifier(n_neighbors=12)

# 模型拟合
knn.fit(x_train, y_train)

# 交叉验证（用在训练的时候）
scores = cross_val_score(knn, x_train, y_train, cv=5, scoring='accuracy')
print(scores)  # 每组的评分结果
print(scores.mean())

# 预测
y_pred = knn.predict(x_test)

# 评估
print(accuracy_score(y_test, y_pred))

1.1 简单调参

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score#引入交叉验证
import  matplotlib.pyplot as plt
###引入数据###
iris=datasets.load_iris()
X=iris.data
y=iris.target
###设置n_neighbors的值为1到30,通过绘图来看训练分数###
k_range=range(1,31)
k_score=[]
for k in k_range:
    knn=KNeighborsClassifier(n_neighbors=k)
    scores=cross_val_score(knn,X,y,cv=10,scoring=