【学习笔记】K-近邻算法(KNN)

最新推荐文章于 2024-12-25 10:24:27 发布

YJ语

最新推荐文章于 2024-12-25 10:24:27 发布

阅读量234

点赞数 1

CC 4.0 BY-SA版权

分类专栏： # 机器学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_dream1/article/details/113411283

机器学习专栏收录该内容

28 篇文章

订阅专栏

本文介绍了K-近邻(KNN)算法的基本原理和距离公式，探讨了在电影类型分析中如何运用KNN进行未知类别电影的预测。KNN算法是一种懒惰学习方法，其优点在于简单易懂，无需训练，但同时也存在计算量大、需指定K值等缺点。在实际应用中，K值的选择对分类精度有很大影响。此外，对于数据预处理，KNN可能需要进行特征缩放和编码等操作。最后，文章提到了sklearn库中的KNeighborsClassifier API，用于实现KNN算法，并列举了其关键参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、K-近邻算法(KNN)

#1.1 定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

来源：KNN算法最早是由Cover和Hart提出的一种分类算法

1.2 距离公式

两个样本的距离可以通过如下公式计算，又叫欧式距离

距离公式
在这里插入图片描述

2、电影类型分析

假设我们有现在几部电影

其中？号电影不知道类别，如何去预测？我们可以利用K近邻算法的思想
在这里插入图片描述

2.1 问题

如果取的最近的电影数量不一样？会是什么结果？

2.2 K-近邻算法数据的特征工程处理

结合前面的约会对象数据，分析K-近邻算法需要做什么样的处理

3、K-近邻算法API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
n_neighbors：int,可选（默认= 5）， k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，计算最近邻居的算法,默认auto

4、K-近邻总结

优点：
简单，易于理解，易于实现，无需训练
缺点：
懒惰算法，对测试样本分类时的计算量大，内存开销大
必须指定K值，K值选择不当则分类精度不能保证
使用场景：小数据场景，几千～几万样本，具体场景具体业务去测试

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。