- 博客(28)
- 收藏
- 关注
原创 【无标题】
1. 生成自定义数据集n_samples=300, # 样本数n_features=2, # 特征数(2维便于可视化)centers=4, # 真实聚类数cluster_std=0.6, # 类内方差(控制簇分散程度)random_state=42 # 固定随机种子,结果可复现print("数据集形状:", X.shape) # 输出:(300, 2)# 2. 初始化并训练K-Means模型n_clusters=4, # 聚类簇数(与真实中心数一致)
2025-08-21 17:01:41
262
原创 数据预处理
将数据映射到指定范围(默认 [0,1]),公式为:(X_{scaled} = frac{X - X_min/X_max - X_min)。根据阈值将连续数据分为 0 和 1 两类(如年龄 > 30 为 1,否则为 0)。支持均值、中位数、常数、众数 4 种填充策略,适用于机器学习流程中的数据预处理。(y,无顺序关系),将类别映射为 0 到 n_classes-1 的整数。(无顺序关系,如血型、性别),将 N 个取值转换为 N 维稀疏向量。(有顺序关系,如学历、成绩档次),保留顺序信息。
2025-08-20 17:00:57
255
原创 决策树二-泰坦尼克号幸存者
随着深度增加,训练集得分(红色曲线)持续上升(最高约 0.9132),但交叉验证集得分(蓝色曲线)在深度为 3-5 时达到峰值(约 0.8200),之后逐渐下降,说明深度超过 5 后模型开始过拟合。但该算法对可取值数目较多的属性存在偏好,例如 “编号” 这类唯一标识属性,可能被误选为最优划分特征,导致模型泛化能力下降。衡量数据集纯度,基尼指数越小,数据集类别越集中(纯度越高),其计算公式为(Gini(D)=1-\sum_{k=1}^{n}p_k^2\),其中(p_k)是数据集D中第k类样本的占比。
2025-08-19 17:54:42
885
原创 算法-决策树
temperature中对应大当家sunny有hot(2个),mild(2个),cool(1个),当sunny对应hot时,特征为yes的有0个熵为0,sunny对应mild的有1个yes1个no,所以熵为1,SUNNY对应cool的有1个yes,所以熵为0,加权为:5/14(2/5*0+2/5*1*+1/5*0)=0.14,信息增益为:0.694-0.14=0.554。加权平均为:3/5*0.918+2/5*0=0.551。特征二熵为:-(2/4log2/4+2/4log2/4)=1,否的为0,
2025-08-18 15:42:42
437
原创 KNN算法
K 近邻算法是一种基于实例的 “懒惰学习” 算法,无需预先训练模型参数。其核心思想是:对于一个新样本,通过计算它与训练集中所有样本的距离,选取距离最近的 K 个邻居样本,新样本的类别由这 K 个邻居中出现频率最高的类别决定。
2025-08-15 19:38:49
627
原创 机器 学习
机器学习是人工智能的核心分支之一,其思想是让计算机通过对数据的分析和学习,自动发现规律,总结经验从而具备解决问题的能力。在2016年韩国首尔,我国机器人通过机器学习和算法等在围棋领域战胜了九段高手李世石。这足以表明机器学习的重要性。
2025-08-14 14:59:41
800
原创 数据分析总结
等等,我们还可以根据这个格式可视化出更多的东西,例如每个店铺平均每多少单有一个评论等等。可视化是我们的目的之一,我们主要是为了分析,做出来可视化我们也更好的去分析问题,例如,我在以后的双十一可以在11.09设置一个合理的价格。或者是以后我如果想开一个店铺的话我应该多进什么品牌的化妆品,主要针对人群是什么。例如:先观察销量,各店小类中销量最高的是相宜本草的补水类商品以及妮维雅的清洁类商品,这两类销量很接近。而销售额上,相宜本草的补水类商品比妮维雅的清洁类商品要高得多,这显然是商品平均单价不同所导致的。
2025-08-13 15:04:12
1238
原创 爬虫和数据分析相结合的案例
本案例从网页数据爬取入手,运用requests和beautifulsoup库获取并解析数据,接着使用pandas库处理缺失值,最后借助matplotlib和numpy库实现数据可视化。完整展示了数据处理流程,涵盖数据获取、清洗、分析及呈现,为数据科学相关实践提供了清晰范例,在实际应用中,可根据具体需求对代码进行优化扩展,如处理更多数据、改进可视化效果等。
2025-08-11 15:41:07
693
原创 matplotlib库和seaborn库
imsave():可以将生成的图像保存到指定的目录中。格式:sns.scatterplot()格式:sns.violinplot()格式:sns.lineplot()格式:sns.barplot()格式:sns.boxplot()格式:sns.heatmap()
2025-08-08 11:35:18
181
原创 Matplotlib函数绘制图像
Matplotlib 是 Python 中最流行的数据可视化库之一,用于创建高质量的2D图表和图形。它最初由 John D. Hunter 于2003年创建,现已成为 Python 科学计算生态系统的重要组成部分。
2025-08-07 15:51:02
592
原创 Pandas库的一些语言
1.将dataframe保存为excel文件。3.将 DataFrame 复制到剪贴板。18.条件替换(mask)2.从剪贴板读取数据。9.转换时间序列频率。11.时间序列重采样。
2025-08-06 14:46:05
138
原创 Numpy结尾以及Pandas库
定义:开源 Python 类库,用于数据分析、处理和可视化。特点:高性能、提供容易使用的数据结构和数据分析工具。
2025-08-06 09:48:01
832
原创 numpy广播
展平数组并返回拷贝(修改不影响原数组)。展平数组并返回视图(修改会影响原数组)。将数组广播到指定形状(返回只读视图)。数组元素迭代器,用于遍历所有元素。不改变数据,仅修改数组形状。对换数组维度(矩阵转置)。删除数组中的一维条目。滚动指定轴到新位置。
2025-08-01 13:49:54
511
原创 数据挖掘Numpy库
Ndarray(N-dimensional array,N 维数组)是 NumPy 中最核心的数据结构,它是一系列同类型数据的集合,以 0 下标为开始进行元素索引,能够高效地存储和处理多维数值数据。Ndarray 对象的内容可以通过索引或切片来访问和修改,与 Python 中列表的切片操作类似。Ndarray 的维度(也称为轴,axis)是其重要特性。指定存储顺序('C' 为行优先,'F' 为列优先)。创建指定形状的数组,数组元素以指定的。函数,用于创建一个等差数列的数组。参数从原数组中切割出一个新数组。
2025-07-31 18:10:28
998
原创 beautifulsoup
BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库,它能够将复杂的文档结构转换为易于操作的树形结构,从而简化数据提取过程。简洁的 Python 式接口:提供直观的函数用于导航、搜索和修改解析树,降低数据提取的复杂度。自动编码处理:自动将输入文档转换为 Unicode 编码,输出为 utf-8 编码,无需手动处理编码问题。灵活的解析策略:支持多种解析器,可根据需求在速度与容错性之间权衡。强大的容错能力。
2025-07-30 18:00:17
554
原创 # PyMySQL数据存储
在数据采集与处理中,将爬取的信息持久化存储到数据库是关键环节。MySQL 作为主流的关系型数据库,常与 Python 结合实现数据存储。本文基于 PyMySQL 库,从基础操作到实战案例,详细总结如何在 Python 中实现 MySQL 数据存储,包含完整代码示例与核心原理。
2025-07-29 17:41:55
468
原创 MYSQL数据基础知识
用在连接与合并中,例如两个表中都有小明的成绩,且成绩都一样,我们就会使用去重,基本语法,UNION 这个是去重,当加上ALL时,就是不去重,即union ALL。这里的左表为表b,右表为表a,左连接表b原封不动的放置在新的表格里,右表根据条件填入,简单来说就是返回左表所有记录 + 右表匹配记录,右表score不匹配的部分用null填充。SELECT `销售表`.`店号`,`店铺表`.`店名`,`销售表`.`商品编码`,`销售表`.`销售数量`INNER JOIN 店铺表 b ON b.店号=a.店号。
2025-07-28 16:57:49
601
原创 MYSQL基本语言和Navicat基本语言
MySQL 中对数据的基本操作包括新增(Create)、查询(Read)、更新(Update)和删除(Delete),俗称 CRUD 操作。
2025-07-25 17:36:14
386
原创 MYSQL语言和Navicat软件
注意事项:我们在下载 Navicat Premium的时候,我们需要注意查看一下版本,因为有的版本会不兼容,就会用不了,我们在window+r点开控制面板,然后输入MySQL -uroot -p我们就可以使用MySQL输入代码了,或者是我们在window里查看MySQL的软件也是可以输入密码后输入代码的,FOREIGN KEY(MySQL 8.0及以上版本支持):用于在两个表之间建立关系,一个表的外键列必须是另一个表的主键或唯一键的值。CREATE: 创建新的数据库对象,如数据库、表、索引、视图。
2025-07-24 17:53:48
843
原创 爬虫:静态网页的爬取
它基于 SSL/TLS 协议(Transport Layer Security,TLS 是 SSL 的升级版),现在通常所说的 SSL 证书实际多基于 TLS 协议工作。result=html.xpath('//a[@href="link4.html"]/../@class') #父节点 result=html.xpath('//li[@class="item-1"]') #属性过滤。result=html.xpath('//li/a/@href') #属性内容。
2025-07-23 19:25:44
871
原创 Javascript和爬虫的存储
如何查看robots协议:打开浏览器,在地址栏中输入目标网站的网址,然后在网址后面添加 “/robots.txt”,按下回车键。先来Javascript,javascript与Java是完全两个东西,Javascript是在前端浏览器完成的脚本,主要作用是完成动态的页面效果,例如在页面中点击提交按钮,在页面的上方会出现提交成功啊等等的,首先Javascript是一种弱类型语言,对环境的要求不高,他在所有浏览器都可以运行,像我们经常使用的python就是一种强类型语言,他对环境的要求特别高。
2025-07-22 18:37:26
807
原创 HTML,CSS在Visual Studio Code用法
HTML超文本链接单元格<td>的属性:bgcolor:设置单元格的背景颜色。background:设置单元格的背景图片。width、height:设置单元格的宽度和高度。align:设定单元格内容的水平对齐方式,有三种:right(居右)、 left(居左) 、center(居中)。valign:设定单元格的垂直对齐属性,有三种:top(居上)、middle(居中)、bottom(居下)。rowspan:单元格的跨行属性。(垂直方向上) colspan:单元格的跨列属性。(水平方向上)
2025-07-21 19:40:47
943
原创 爬虫基础知识第三课(爬取需要登陆的网页)
在名称里我们要去找,请求方式为POST并且在负载里有你的账号密码的,这个就是我们要找的cookie的地址,cookie我们要在标头里去寻找,然后把cookie复制下来,去放在我们的代码里,同时在代码里我们还要有user-agent,来向浏览器来证明我们是人类在爬取这个网址,而不是机器或者其他的在爬取,也就是所谓的为了防止反反爬。,否则浏览器的cookie不会有我们的密码,我们的账号密码的代码会存在这里的某一个链接里,这里我推荐一个对新手非常友好的网站,就是。,来让我们的登陆情况保留在这里,
2025-07-18 18:40:23
530
原创 爬虫基础知识第二课
r为response,这里的get就是上边的request,url为网站的链接,url的参数可以用**kwargs来代表,这里需要注意的是每一个参数之间要用。requests.request() 构造一个请求,在括号里填入所需要的请求方式,例如requests.request(get)的,我们只能被动的去适应(在网站的开发者模式的网络里可以看到,Get占大多数,Post只在特定的模式下使用,例如模拟登录等)request.head() 获取HTMI的网页头信息,对应于HTTP的head。
2025-07-17 16:01:18
1915
原创 爬虫基础知识
摘要:学习爬虫前需要安装Python及相关库,可使用pip或conda安装,前者可指定版本,后者自动适配。爬虫原理包括页面爬行、链接过滤等模块,主要采用深度优先或广度优先策略遍历网页。URL由协议、主机地址和资源路径组成,HTTP和HTTPS的主要区别在于安全性。HTTP请求常用GET和POST方法,响应包含状态码、头部、空行和正文。状态码2xx表示成功,3xx重定向,4xx请求错误,5xx服务器错误。文章提供了基本的爬虫代码框架,使用requests库获取网页内容。
2025-07-16 15:18:19
1492
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人