- 博客(159)
- 资源 (3)
- 收藏
- 关注
原创 T01_神经网络示例
换句话说,一个epoch意味着训练数据集中的每个样本都有机会更新模型的内部参数。epochs的值过小也会导致模型精度差,通常,epoch数量越多,模型在训练数据上的性能越好,但也可能导致过拟合。上例中的batch_size是经过多次尝试,找到了一个相对好的值,如果值太大,模型精度明显很差。较小的batch size可以使模型更快地更新参数,但可能会导致不稳定的梯度下降。简单数据(例如鸢尾花的例子,数据样本很少,特性也很少),可以直接使用numpy类型的数据(上例也可以用pandas作为训练数据)
2025-07-10 11:44:18
348
原创 sklearn总结
Python机器学习基础教程》是一本值得一读的好书,书中不仅仅讲算法(也不将数学作为重点),而是通过 scikit-learn 库系统的讲述了处理机器学习问题的步骤(特征工程》模型训练》模型评估)。scikit-learn是一个开源的机器学习库,致力于提供简单而高效的工具(高度统计的算法接口,各种数据处理脚手架)。
2025-07-02 17:52:39
873
原创 16_集成学习
集成学习通过组合多个模型预测来提升性能,主要包括Bagging、Boosting和Stacking三大类。Bagging(如随机森林)通过自助采样训练多个模型并投票/平均结果,适用于高方差模型。Boosting(如XGBoost、LightGBM)通过序列化训练和加权投票逐步修正误差,适合弱学习器。Stacking则结合不同基学习器的输出训练元模型,复杂度较高但潜力大。
2025-06-19 08:20:40
566
原创 11_数据表示与特征工程
对于某个特定应用来说,如何找到最佳数据表示,这个问题被称为特征工程(feature engineering)它是数据科学家和机器学习从业者在尝试解决现实世界问题时的主要任务之一。用正确的方式表示数据,对监督模型性能的影响比所选择的精确参数还要大。
2025-06-09 13:07:49
773
原创 10_聚类
本文介绍了两种常用的聚类方法:K均值聚类和凝聚聚类。K均值聚类通过迭代寻找簇中心,适合处理凸形数据,但对复杂形状效果较差。凝聚聚类则通过合并相似簇实现聚类,提供了ward、average、complete和single四种链接策略,其中single策略能更好处理非凸形状数据。两种方法各有优势:K均值简单高效但依赖初始化和簇数设定,凝聚聚类能处理更复杂结构但计算成本较高。文章通过可视化对比了不同方法在各类数据集上的表现,并分析了其适用场景和局限性。
2025-06-05 11:27:23
1073
原创 13_pandas可视化_Matplotlib
matplotlib是python可视化非常重要的基础库,虽然seaborn很好用,但实际应用中发现seaborn无法满足一些场景,还是要回到matplotlib来。
2025-06-03 18:29:28
746
原创 07_分类器不确定评估
scikit-learn中有两个函数可以用于获取分类器的不确定度估计:descision_function和predic_proba。大多数分类器都至少有其中一个函数,多分类器两个都有。
2025-05-23 16:58:35
939
原创 06_神经网络
神经网络的主要优点是能够获取大量数据中包含的信息,并构建无比复杂的模型。给定足够的计算时间和数据,并且仔细调节参数,神经网络通常能打败其他机器学习算法。
2025-05-22 13:00:13
676
原创 03_朴素贝叶斯分类
朴素贝叶斯分类器与线性模型非常相似的一种分类器,但它的训练速度往往更快。这种高效率所付出的代价是,朴素贝叶斯模型的泛化能力要比线性分类器(如LogisticRegression 和 LinearSVC)稍差。
2025-05-14 15:08:28
675
原创 02_线性模型(回归分类模型)
许多线性分类模型只适用于二分类问题,不能轻易推广到多类别问题(除了 Logistic 回归)。将二分类算法推广到多分类算法的一种常见方法是“一对其余”(one-vs.-rest)方法。
2025-05-12 13:14:01
1143
原创 02_线性模型(回归线性模型)
线性回归是回归问题最简单也最经典的线性方法。线性回归寻找参数 w 和 b,使得对训练集的预测值与真实的回归目标值 y之间的均方误差最小
2025-05-09 17:33:45
985
原创 13_pandas可视化_plotly_express
把Pandas的版本降下来就可以了:pip install pandas==1.5.3 -i https://pypi.tuna.tsinghua.edu.cn/simple。参数hostnorm可以设置纵轴数据分布展示方式,其值可以是’percent’,‘probability’,‘density’,‘probability density’px.imshow()可以用来绘制热力图。x = ‘total_bill’ 指定直方图的x轴取值。nbins 参数设置分箱数据量。也可以单独设置x、或y。
2025-04-10 13:29:00
636
原创 13_pandas可视化_seaborn
熟悉seaborn的基本绘图接口。详细教程参看https://seaborn.org.cn/tutorial.html
2025-04-02 12:53:01
661
原创 12_Pandas时序数据(下)
由于不同地区不同文化,工作日和休息时间不尽相同。# 定义放假日期# 自定义工作日中传入休假日期,一个正常星期工作的顺序# 偏移两个工作日,跳过了休假日# 输出时序及星期几BusinessHour表示开始和结束工作的小时时间,默认的工作时间是9:00 ~ 17:00,与时间相加超过一个小时会移到下一个小时,超过一天移动到下一个工作日# 增加一个工作小时# 偏移两个工作小时# 减去两个工作小时可以自定义开始和结束时间,格式必须是hour:minute,不支持秒# 11点开始上班。
2025-03-19 13:01:41
649
原创 11_Pandas窗口计算
窗口计算就是在一个数列中,选择一部分数据所形成的一个数据区间。按照一定的规则产生很多窗口,对每个窗口施加计算得到的结果集成为一个新的数列,这个过程叫做窗口计算。移动窗口rolling()与groupby很像,但并没有固定的分组,而是创建了一个按一定移动(如10天)移动的移动窗口对象。一个数据会参与到多个窗口(集合、分组)中,而groupby中的一个值只能在一个分组中。扩展窗口(expanding)是从数据(大多情况下是时间)的起始处开始窗口,增加窗口直到指定的大小。一般所有的数据都会参与所有窗口。
2025-02-25 12:33:24
260
原创 10_Pandas文本处理、分类数据
object和StringDtype是Pandas的两个文本类型。在1.0版本前,object是唯一文本类型,Pandas会将混杂各种类型的一列数据归为object,1.0版本后,推荐使用新的类型StringDtype。
2025-02-13 13:04:23
1047
原创 cmake多工程
子工程中的CMakeLists.tx没有什么特殊的,cmake_minmun_required、c++标准不需要在指定了。需要注意一点:如果子工程中对gcc、g++有特殊要求(例如交叉编译),gcc和g++的路径需要在子工程中指定!如果有子工程有引用关系,注意顺序,被引用的往前放。描述该目录下有几个子工程参与编译。
2025-01-20 09:35:33
157
原创 09_Pandas数据清洗
一般使用特殊的类型NaN代表缺失值,可以使用NumPy定义为np.NaN或者np.na。Pandas可以用pd.NA来表示。
2025-01-02 12:55:19
862
原创 07_Pandas多层索引
多层数据可以只有行上的多层,可以只有在列上为多层,也可以在两个方向都为多层,理论上层数是没有上限的。除了原生的数据为多层外,在数据分组聚合等操作时也会产生多层数据。多层是一个低维的形式展示的多维数据,可以用这种形式处理高维数据。
2024-11-28 15:34:23
325
Qt MinGW环境下chromium内核的使用
2024-11-28
H-ui.admin_v3.0.
2018-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人