姜—姜-CSDN博客

原创【无标题】

1. 生成自定义数据集n_samples=300, # 样本数n_features=2, # 特征数（2维便于可视化）centers=4, # 真实聚类数cluster_std=0.6, # 类内方差（控制簇分散程度）random_state=42 # 固定随机种子，结果可复现print("数据集形状:", X.shape) # 输出：(300, 2)# 2. 初始化并训练K-Means模型n_clusters=4, # 聚类簇数（与真实中心数一致）

2025-08-21 17:01:41 262

原创数据预处理

将数据映射到指定范围（默认 [0,1]），公式为：(X_{scaled} = frac{X - X_min/X_max - X_min)。根据阈值将连续数据分为 0 和 1 两类（如年龄 > 30 为 1，否则为 0）。支持均值、中位数、常数、众数 4 种填充策略，适用于机器学习流程中的数据预处理。（y，无顺序关系），将类别映射为 0 到 n_classes-1 的整数。（无顺序关系，如血型、性别），将 N 个取值转换为 N 维稀疏向量。（有顺序关系，如学历、成绩档次），保留顺序信息。

2025-08-20 17:00:57 255

原创决策树二-泰坦尼克号幸存者

随着深度增加，训练集得分（红色曲线）持续上升（最高约 0.9132），但交叉验证集得分（蓝色曲线）在深度为 3-5 时达到峰值（约 0.8200），之后逐渐下降，说明深度超过 5 后模型开始过拟合。但该算法对可取值数目较多的属性存在偏好，例如 “编号” 这类唯一标识属性，可能被误选为最优划分特征，导致模型泛化能力下降。衡量数据集纯度，基尼指数越小，数据集类别越集中（纯度越高），其计算公式为(Gini(D)=1-\sum_{k=1}^{n}p_k^2\)，其中(p_k)是数据集D中第k类样本的占比。

2025-08-19 17:54:42 885

原创算法-决策树

temperature中对应大当家sunny有hot（2个）,mild（2个）,cool(1个)，当sunny对应hot时，特征为yes的有0个熵为0，sunny对应mild的有1个yes1个no，所以熵为1,SUNNY对应cool的有1个yes,所以熵为0，加权为：5/14（2/5*0+2/5*1*+1/5*0）=0.14，信息增益为：0.694-0.14=0.554。加权平均为：3/5*0.918+2/5*0=0.551。特征二熵为：-（2/4log2/4+2/4log2/4）=1，否的为0，

2025-08-18 15:42:42 437

原创 KNN算法

K 近邻算法是一种基于实例的 “懒惰学习” 算法，无需预先训练模型参数。其核心思想是：对于一个新样本，通过计算它与训练集中所有样本的距离，选取距离最近的 K 个邻居样本，新样本的类别由这 K 个邻居中出现频率最高的类别决定。

2025-08-15 19:38:49 627

原创机器学习

机器学习是人工智能的核心分支之一，其思想是让计算机通过对数据的分析和学习，自动发现规律，总结经验从而具备解决问题的能力。在2016年韩国首尔，我国机器人通过机器学习和算法等在围棋领域战胜了九段高手李世石。这足以表明机器学习的重要性。

2025-08-14 14:59:41 800

原创数据分析总结

等等，我们还可以根据这个格式可视化出更多的东西，例如每个店铺平均每多少单有一个评论等等。可视化是我们的目的之一，我们主要是为了分析，做出来可视化我们也更好的去分析问题，例如，我在以后的双十一可以在11.09设置一个合理的价格。或者是以后我如果想开一个店铺的话我应该多进什么品牌的化妆品，主要针对人群是什么。例如：先观察销量，各店小类中销量最高的是相宜本草的补水类商品以及妮维雅的清洁类商品，这两类销量很接近。而销售额上，相宜本草的补水类商品比妮维雅的清洁类商品要高得多，这显然是商品平均单价不同所导致的。

2025-08-13 15:04:12 1238

原创综合案例:

案例：双十一美妆案例。

2025-08-12 16:58:30 372

原创爬虫和数据分析相结合的案例

本案例从网页数据爬取入手，运用requests和beautifulsoup库获取并解析数据，接着使用pandas库处理缺失值，最后借助matplotlib和numpy库实现数据可视化。完整展示了数据处理流程，涵盖数据获取、清洗、分析及呈现，为数据科学相关实践提供了清晰范例，在实际应用中，可根据具体需求对代码进行优化扩展，如处理更多数据、改进可视化效果等。

2025-08-11 15:41:07 693

原创 matplotlib库和seaborn库

imsave():可以将生成的图像保存到指定的目录中。格式：sns.scatterplot()格式：sns.violinplot()格式：sns.lineplot()格式：sns.barplot()格式：sns.boxplot()格式：sns.heatmap()

2025-08-08 11:35:18 181

原创 Matplotlib函数绘制图像

Matplotlib 是 Python 中最流行的数据可视化库之一，用于创建高质量的2D图表和图形。它最初由 John D. Hunter 于2003年创建，现已成为 Python 科学计算生态系统的重要组成部分。

2025-08-07 15:51:02 592

原创 Pandas库的一些语言

1.将dataframe保存为excel文件。3.将 DataFrame 复制到剪贴板。18.条件替换（mask）2.从剪贴板读取数据。9.转换时间序列频率。11.时间序列重采样。

2025-08-06 14:46:05 138

原创 Numpy结尾以及Pandas库

定义：开源 Python 类库，用于数据分析、处理和可视化。特点：高性能、提供容易使用的数据结构和数据分析工具。

2025-08-06 09:48:01 832

原创 numpy基础知识2

用于扩展数组的形状。

2025-08-04 17:17:37 710

原创 numpy广播

展平数组并返回拷贝（修改不影响原数组）。展平数组并返回视图（修改会影响原数组）。将数组广播到指定形状（返回只读视图）。数组元素迭代器，用于遍历所有元素。不改变数据，仅修改数组形状。对换数组维度（矩阵转置）。删除数组中的一维条目。滚动指定轴到新位置。

2025-08-01 13:49:54 511

原创数据挖掘Numpy库

Ndarray（N-dimensional array，N 维数组）是 NumPy 中最核心的数据结构，它是一系列同类型数据的集合，以 0 下标为开始进行元素索引，能够高效地存储和处理多维数值数据。Ndarray 对象的内容可以通过索引或切片来访问和修改，与 Python 中列表的切片操作类似。Ndarray 的维度（也称为轴，axis）是其重要特性。指定存储顺序（'C' 为行优先，'F' 为列优先）。创建指定形状的数组，数组元素以指定的。函数，用于创建一个等差数列的数组。参数从原数组中切割出一个新数组。

2025-07-31 18:10:28 998

原创 beautifulsoup

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库，它能够将复杂的文档结构转换为易于操作的树形结构，从而简化数据提取过程。简洁的 Python 式接口：提供直观的函数用于导航、搜索和修改解析树，降低数据提取的复杂度。自动编码处理：自动将输入文档转换为 Unicode 编码，输出为 utf-8 编码，无需手动处理编码问题。灵活的解析策略：支持多种解析器，可根据需求在速度与容错性之间权衡。强大的容错能力。

2025-07-30 18:00:17 554

原创 # PyMySQL数据存储

在数据采集与处理中，将爬取的信息持久化存储到数据库是关键环节。MySQL 作为主流的关系型数据库，常与 Python 结合实现数据存储。本文基于 PyMySQL 库，从基础操作到实战案例，详细总结如何在 Python 中实现 MySQL 数据存储，包含完整代码示例与核心原理。

2025-07-29 17:41:55 468

原创 MYSQL数据基础知识

用在连接与合并中，例如两个表中都有小明的成绩，且成绩都一样，我们就会使用去重，基本语法，UNION 这个是去重，当加上ALL时，就是不去重，即union ALL。这里的左表为表b，右表为表a，左连接表b原封不动的放置在新的表格里，右表根据条件填入，简单来说就是返回左表所有记录 + 右表匹配记录，右表score不匹配的部分用null填充。SELECT `销售表`.`店号`,`店铺表`.`店名`,`销售表`.`商品编码`,`销售表`.`销售数量`INNER JOIN 店铺表 b ON b.店号=a.店号。

2025-07-28 16:57:49 601

原创 MYSQL基本语言和Navicat基本语言

MySQL 中对数据的基本操作包括新增（Create）、查询（Read）、更新（Update）和删除（Delete），俗称 CRUD 操作。

2025-07-25 17:36:14 386

原创 MYSQL语言和Navicat软件

注意事项：我们在下载 Navicat Premium的时候，我们需要注意查看一下版本，因为有的版本会不兼容，就会用不了，我们在window+r点开控制面板，然后输入MySQL -uroot -p我们就可以使用MySQL输入代码了，或者是我们在window里查看MySQL的软件也是可以输入密码后输入代码的，FOREIGN KEY（MySQL 8.0及以上版本支持）：用于在两个表之间建立关系，一个表的外键列必须是另一个表的主键或唯一键的值。CREATE: 创建新的数据库对象，如数据库、表、索引、视图。

2025-07-24 17:53:48 843

原创爬虫：静态网页的爬取

它基于 SSL/TLS 协议（Transport Layer Security，TLS 是 SSL 的升级版），现在通常所说的 SSL 证书实际多基于 TLS 协议工作。result=html.xpath('//a[@href="link4.html"]/../@class') #父节点 result=html.xpath('//li[@class="item-1"]') #属性过滤。result=html.xpath('//li/a/@href') #属性内容。

2025-07-23 19:25:44 871

2402_89746772的博客