白杆杆红伞伞-CSDN博客

原创 T01_神经网络示例

换句话说，一个epoch意味着训练数据集中的每个样本都有机会更新模型的内部参数。epochs的值过小也会导致模型精度差，通常，epoch数量越多，模型在训练数据上的性能越好，但也可能导致过拟合。上例中的batch_size是经过多次尝试，找到了一个相对好的值，如果值太大，模型精度明显很差。较小的batch size可以使模型更快地更新参数，但可能会导致不稳定的梯度下降。简单数据（例如鸢尾花的例子，数据样本很少，特性也很少），可以直接使用numpy类型的数据（上例也可以用pandas作为训练数据）

2025-07-10 11:44:18 348

原创 T01_神经网络

初步深入理解神经网络

2025-07-07 12:47:18 368 2

原创 sklearn总结

Python机器学习基础教程》是一本值得一读的好书，书中不仅仅讲算法（也不将数学作为重点），而是通过 scikit-learn 库系统的讲述了处理机器学习问题的步骤（特征工程》模型训练》模型评估）。scikit-learn是一个开源的机器学习库，致力于提供简单而高效的工具（高度统计的算法接口，各种数据处理脚手架）。

2025-07-02 17:52:39 873

原创 16_集成学习

集成学习通过组合多个模型预测来提升性能，主要包括Bagging、Boosting和Stacking三大类。Bagging（如随机森林）通过自助采样训练多个模型并投票/平均结果，适用于高方差模型。Boosting（如XGBoost、LightGBM）通过序列化训练和加权投票逐步修正误差，适合弱学习器。Stacking则结合不同基学习器的输出训练元模型，复杂度较高但潜力大。

2025-06-19 08:20:40 566

原创 15_模型保存与加载

模型保存是机器学习完成的最后一步，通过将训练好的模型持久化到磁盘，可以在需要使用模型时直接从磁盘加载，无需再次训练。

2025-06-18 12:49:42 346

原创 14_处理文本

按照书上的例子，熟悉一下文本处理流程。可能与书上的结果有出入，因为数据集有较大的变化，而且sklearn的版本有较大更新。

2025-06-17 18:26:44 1007

原创 11_13小结

连续特征离散特征（分类特征）特征分箱。

2025-06-14 15:02:23 898

原创 13_算法链与管道

使用Pipeline简化模型使用步骤；扩展GridSearchCV(网格搜索)功能

2025-06-14 12:47:42 1022

原创 12_模型评估与改进_2

模型评估指标

2025-06-13 12:56:28 580

原创 12_模型评估与改进_1

交叉验证、网格搜索

2025-06-13 12:55:15 674

原创 11_数据表示与特征工程

对于某个特定应用来说，如何找到最佳数据表示，这个问题被称为特征工程（feature engineering）它是数据科学家和机器学习从业者在尝试解决现实世界问题时的主要任务之一。用正确的方式表示数据，对监督模型性能的影响比所选择的精确参数还要大。

2025-06-09 13:07:49 773

原创 08_10小结

对缩放、PCA、NMF、聚类等进行阶段性的总结

2025-06-05 13:06:03 838

原创 10_聚类

本文介绍了两种常用的聚类方法：K均值聚类和凝聚聚类。K均值聚类通过迭代寻找簇中心，适合处理凸形数据，但对复杂形状效果较差。凝聚聚类则通过合并相似簇实现聚类，提供了ward、average、complete和single四种链接策略，其中single策略能更好处理非凸形状数据。两种方法各有优势：K均值简单高效但依赖初始化和簇数设定，凝聚聚类能处理更复杂结构但计算成本较高。文章通过可视化对比了不同方法在各类数据集上的表现，并分析了其适用场景和局限性。

2025-06-05 11:27:23 1073

原创 13_pandas可视化_Matplotlib

matplotlib是python可视化非常重要的基础库，虽然seaborn很好用，但实际应用中发现seaborn无法满足一些场景，还是要回到matplotlib来。

2025-06-03 18:29:28 746

原创 09_降维、特征提取与流行学习

学习了解PCA降维的使用方法，以及NMF、SNE在特征提取方面的使用方法

2025-05-29 11:40:26 877

原创 08_预处理与缩放

机器学习的一些算法（如神经网络、SVM）对数据缩放非常敏感。通常的做法是对特征进行调节，使数据表示更适合与这些算法。

2025-05-26 17:27:25 375

原创 01_07小结

机器学习（监督）分两大类：分类（Classifier）、回归（Regressor）

2025-05-23 16:59:35 340

原创 07_分类器不确定评估

scikit-learn中有两个函数可以用于获取分类器的不确定度估计：descision_function和predic_proba。大多数分类器都至少有其中一个函数，多分类器两个都有。

2025-05-23 16:58:35 939

原创 06_神经网络

神经网络的主要优点是能够获取大量数据中包含的信息，并构建无比复杂的模型。给定足够的计算时间和数据，并且仔细调节参数，神经网络通常能打败其他机器学习算法。

2025-05-22 13:00:13 676

原创 05_核支持向量机

核支持向量机（通常简称为SVM）可以推广到更复杂模型的扩展，这些模型无法被输入空间的超平面定义。

2025-05-20 12:50:46 1028

原创 04_决策树

决策树、决策树集成（随机深林、梯度提升回归树）是广泛用于分类和回归任务的模型。

2025-05-17 10:55:39 730

原创 03_朴素贝叶斯分类

朴素贝叶斯分类器与线性模型非常相似的一种分类器，但它的训练速度往往更快。这种高效率所付出的代价是，朴素贝叶斯模型的泛化能力要比线性分类器（如LogisticRegression 和 LinearSVC）稍差。

2025-05-14 15:08:28 675

原创 02_线性模型（回归分类模型）

许多线性分类模型只适用于二分类问题，不能轻易推广到多类别问题（除了 Logistic 回归）。将二分类算法推广到多分类算法的一种常见方法是“一对其余”（one-vs.-rest）方法。

2025-05-12 13:14:01 1143

原创 02_线性模型(回归线性模型)

线性回归是回归问题最简单也最经典的线性方法。线性回归寻找参数 w 和 b，使得对训练集的预测值与真实的回归目标值 y之间的均方误差最小

2025-05-09 17:33:45 985

原创 01_K近邻

k-NN 算法可以说是最简单的机器学习算法，借助k-NN算法理解机器学习的一些概念。

2025-04-30 12:57:50 498

原创 13_pandas可视化_plotly_express

把Pandas的版本降下来就可以了：pip install pandas==1.5.3 -i https://pypi.tuna.tsinghua.edu.cn/simple。参数hostnorm可以设置纵轴数据分布展示方式，其值可以是’percent’,‘probability’,‘density’,‘probability density’px.imshow()可以用来绘制热力图。x = ‘total_bill’ 指定直方图的x轴取值。nbins 参数设置分箱数据量。也可以单独设置x、或y。

2025-04-10 13:29:00 636

原创 13_pandas可视化_plotly

plotly是一款可以生成交互式图表的可视化python库

2025-04-09 13:06:56 661

原创 13_pandas可视化_seaborn

熟悉seaborn的基本绘图接口。详细教程参看https://seaborn.org.cn/tutorial.html

2025-04-02 12:53:01 661

原创 13_Pandas可视化_plot

了解数据分析的基本图，知道每种图代表的意义

2025-03-28 13:02:16 578

原创 12_Pandas时序数据（下）

由于不同地区不同文化，工作日和休息时间不尽相同。# 定义放假日期# 自定义工作日中传入休假日期，一个正常星期工作的顺序# 偏移两个工作日，跳过了休假日# 输出时序及星期几BusinessHour表示开始和结束工作的小时时间，默认的工作时间是9:00 ~ 17:00，与时间相加超过一个小时会移到下一个小时，超过一天移动到下一个工作日# 增加一个工作小时# 偏移两个工作小时# 减去两个工作小时可以自定义开始和结束时间，格式必须是hour:minute，不支持秒# 11点开始上班。

2025-03-19 13:01:41 649

原创 12_Pandas时序数据（上）

固定时间是指一个时间点。固定时间是时序数据的基础，一个固定时间带有丰富的信息，如年份、周几、月份、季度等。

2025-03-01 11:26:10 658

原创 11_Pandas窗口计算

窗口计算就是在一个数列中，选择一部分数据所形成的一个数据区间。按照一定的规则产生很多窗口，对每个窗口施加计算得到的结果集成为一个新的数列，这个过程叫做窗口计算。移动窗口rolling()与groupby很像，但并没有固定的分组，而是创建了一个按一定移动（如10天）移动的移动窗口对象。一个数据会参与到多个窗口（集合、分组）中，而groupby中的一个值只能在一个分组中。扩展窗口（expanding）是从数据（大多情况下是时间）的起始处开始窗口，增加窗口直到指定的大小。一般所有的数据都会参与所有窗口。

2025-02-25 12:33:24 260

原创 10_Pandas文本处理、分类数据

object和StringDtype是Pandas的两个文本类型。在1.0版本前，object是唯一文本类型，Pandas会将混杂各种类型的一列数据归为object，1.0版本后，推荐使用新的类型StringDtype。

2025-02-13 13:04:23 1047

原创 linux_socket

【代码】linux_socket。

2025-01-20 12:57:44 233

原创 cmake多工程

子工程中的CMakeLists.tx没有什么特殊的，cmake_minmun_required、c++标准不需要在指定了。需要注意一点：如果子工程中对gcc、g++有特殊要求（例如交叉编译），gcc和g++的路径需要在子工程中指定！如果有子工程有引用关系，注意顺序，被引用的往前放。描述该目录下有几个子工程参与编译。

2025-01-20 09:35:33 157

原创 Qt人脸识别

opencv dlib 人脸识别，特征提取

2025-01-03 07:57:26 204

原创 09_Pandas数据清洗

一般使用特殊的类型NaN代表缺失值，可以使用NumPy定义为np.NaN或者np.na。Pandas可以用pd.NA来表示。

2025-01-02 12:55:19 862

原创 08_Pandas数据重塑与透视

数据透视表，可以找出大量复杂无关数据的内在关系，将数据转换为有意义、有价值的信息。

2024-12-12 12:41:36 1130

原创 07_Pandas多层索引

多层数据可以只有行上的多层，可以只有在列上为多层，也可以在两个方向都为多层，理论上层数是没有上限的。除了原生的数据为多层外，在数据分组聚合等操作时也会产生多层数据。多层是一个低维的形式展示的多维数据，可以用这种形式处理高维数据。

2024-11-28 15:34:23 325

原创 Qt MinGW环境下使用CEF

Qt MinGW环境下使用CEF内核

2024-11-28 11:10:35 1317 7

Windows 下 grcp 应用示例

MinGW 7.3.0编译环境下编译的gcp库，其中包含服务端、客户端示例代码，可以直接编译

2025-06-03

mingw 环境下 c++ tcp udp 代码示例

mingw 环境下 c++ tcp upd 代码示例；可以编译执行

2025-05-16

13-pandas可视化-plotly

2025-04-09

基于虹软的SDK，实现的人脸识别，人脸检查

环境：vs2017 + Qt 5.12.12 SDK ：ArcSoft_ArcFace_Windows_x86_V3.0

2025-03-24

Qt人脸识别，基于opencv，dlib

人脸识别，特征提取

2025-01-02

Qt MinGW环境下chromium内核的使用

基于cef_binary_87.1.14+ga29e9a3+chromium-87.0.4280.141_windows32、Qt5.12.12、 MinGW 7.3.0 需要自行下载CEF库（下载地址：https://cef-builds.spotifycdn.com/index.html）

2024-11-28