- 博客(145)
- 资源 (30)
- 收藏
- 关注
原创 谈常规企业中算法工作的主要职责
算法工程师,也叫数据科学家,听来似乎是一个炽手可热的高大上职位,近些年随着人工智能技术的强势崛起,而水涨船高。事实上,在此前很长的历史时期里,社会中并没有实际设立这样的岗位,但其工作内容与岗位职责却是一脉相承、顺势而为的。这个岗位在企业中尤为常见,不论何种行业和何种方向。
2025-07-13 16:03:28
661
原创 扩散模型(Diffusion Model)原理概述
扩散模型(Diffusion Model)是一种生成模型,受热力学中扩散过程的启发,通过模拟数据从噪声中逐步去噪的过程来生成样本。其核心思想是渐进式地添加噪声(正向过程)和逐步去噪(反向过程)。在正向过程中,逐步向数据中添加高斯噪声,最终将数据转化为纯噪声;在反向过程中,学习如何从噪声中逐步去噪,恢复出原始数据分布。
2025-07-13 13:56:49
971
原创 生成式对抗网络(GAN)模型原理概述
生成对抗网络(Generative Adversarial Network, GAN)是一种通过对抗训练生成数据的深度学习模型,由生成器(Generator)和判别器(Discriminator)两部分组成,其核心思想源于博弈论中的零和博弈。
2025-07-12 23:59:14
1138
原创 BERT模型基本原理及实现示例
BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的预训练语言模型,其核心思想是通过双向Transformer结构捕捉上下文信息,为下游NLP任务提供通用的语义表示。
2025-07-10 21:34:02
292
原创 Transformer模型原理概述
Transformer 是一种基于自注意力机制(Self-Attention)的深度学习模型,最初由 Google 在 2017 年的论文《Attention Is All You Need》中提出,主要用于自然语言处理任务,如今已广泛应用于计算机视觉、语音识别等多个领域,是现代大语言模型(如GPT、BERT等)的核心架构。
2025-07-10 20:57:44
859
原创 深度学习模型在C++平台的部署
深度学习模型能够在各种生产场景中发挥重要的作用,而深度学习模型往往在Python环境下完成训练,因而训练好的模型如何在生产环境下实现稳定可靠的部署,便是一个重要内容。C++开发平台广泛存在于各种复杂的生产环境,随着业务效能需求的不断提高,充分运用深度学习技术的优势显得尤为重要。本文介绍如何实现将深度学习模型部署在C++平台上。
2025-07-09 23:59:35
410
原创 机器学习模型在C++平台的部署
机器学习模型的训练通常在Python环境下完成,而现实生产环境的复杂性和多样性使得模型的部署成为一个值得关注的重点。不同应用场景下有不同适应的实现方式,这里主要介绍通过一种通用中间格式——ONNX(Open Neural Network Exchange),来实现机器学习模型在C++平台的部署。
2025-07-09 23:51:20
346
原创 OpenCV在Visual Studio 2022下的配置
OpenCV是一个开源的计算机视觉和机器学习软件库,广泛应用于图像处理、目标检测、模式识别等领域。它通常搭配在Visual Studio集成开发环境中使用,配置步骤主要有下载安装、加入系统环境变量、设置VS项目属性等。
2025-07-08 19:08:42
429
原创 模拟退火算法的原理与实现示例
模拟退火算法(Simulated Annealing, SA)是一种受物理中固体退火过程启发的元启发式优化算法,用于在大规模搜索空间中寻找近似全局最优解。其核心思想是通过模拟物理退火过程中的“温度”下降和粒子热运动,逐步收敛到低能量(即目标函数更优)的状态。
2025-07-06 19:10:19
1238
原创 粒子群算法的原理与实现示例
粒子群算法(Particle Swarm Optimization,PSO)是一种基于群体智能的优化算法,由 Kennedy 和 Eberhart 于 1995 年提出,其灵感来源于鸟群觅食、鱼群游动等自然界中群体行为的协作与信息共享机制。该算法通过模拟群体中个体(粒子)的运动和信息交互,在解空间中搜索最优解,具有实现简单、收敛速度快、参数少等特点,被广泛应用于函数优化、神经网络训练、工程设计等领域。
2025-07-06 18:33:16
1085
原创 蚁群算法的原理及实现示例
蚁群算法(Ant Colony Optimization, ACO)是一种模拟蚂蚁觅食行为的群体智能优化算法,由Marco Dorigo于1992年提出,常用于解决组合优化问题(如旅行商问题、路径规划等)。其核心思想是通过正反馈机制和分布式协作模拟蚂蚁群体在寻找食物过程中表现出的智能行为。
2025-07-04 23:58:14
1320
原创 遗传算法的原理与实现示例
遗传算法是一种受生物进化理论启发的随机优化算法,其核心思想是模拟自然界中 “物竞天择、适者生存” 的进化过程,通过对候选解的迭代优化,找到问题的最优解。
2025-07-04 23:16:14
922
原创 协同过滤推荐算法
协同过滤(Collaborative Filtering)是推荐系统中最经典的算法之一,其核心思想是 “物以类聚,人以群分”,即通过分析用户的历史行为数据,找到与目标用户相似的用户群体或相似的物品,从而为目标用户推荐他们可能感兴趣的物品。
2025-07-03 23:57:41
504
原创 支持向量机(SVM)分类
支持向量机(Support Vector Machine,SVM)是一种经典的监督学习算法,主要用于分类任务,也可扩展到回归问题(称为支持向量回归,SVR)。其核心思想是通过寻找一个最优超平面,最大化不同类别数据之间的间隔(Margin),从而实现高效分类。
2025-07-03 23:32:17
1064
原创 卡尔曼滤波算法原理概述
卡尔曼滤波(Kalman Filter)是一种高效的递归数学算法,用于从包含噪声的观测数据中动态估计系统的状态。它广泛应用于信号处理、导航、控制系统、机器人等领域。其核心思想是通过结合预测(系统模型)和更新(观测数据)来最小化估计误差的协方差。
2025-07-01 17:38:47
1050
原创 常见的损失函数汇总
损失函数(Loss Function)是机器学习和深度学习中用于衡量模型预测值与真实值之间差异的函数,其值越小表示模型性能越好。不同的任务(如分类、回归、生成等)需要选择不同的损失函数。
2025-07-01 15:21:09
877
原创 图神经网络(GNN)模型的基本原理
图神经网络(Graph Neural Networks, GNN)是一种直接在图结构数据上运行的神经网络,用于处理节点、边或整个图的特征信息。其核心思想是通过聚合邻域节点的特征信息来更新当前节点的表示,从而捕捉图中节点间的依赖关系和拓扑结构特征。
2025-06-08 14:26:40
992
原创 知识图谱技术概述
知识图谱(Knowledge Graph) 是一种基于图结构的语义网络,用于表示实体及其之间的关系,旨在实现更智能的知识表示和推理。它通过将现实世界中的各类信息抽象为 “实体-关系-实体” 的三元组结构,构建出复杂的知识网络,从而支持高效的信息检索、语义理解和决策分析。
2025-06-06 23:58:46
897
原创 长短期记忆(LSTM)网络模型
长短期记忆(Long Short-Term Memory,LSTM)网络是一种特殊的循环神经网络(RNN),专门设计用于解决传统 RNN 在处理长序列数据时面临的梯度消失 / 爆炸问题,能够有效捕捉长距离依赖关系。其核心在于引入记忆细胞(Cell State)和门控机制(Gate Mechanism),通过控制信息的流动来实现对长期信息的存储与遗忘。
2025-05-31 00:10:23
1501
原创 循环神经网络(RNN)模型
循环神经网络(Recurrent Neural Network, RNN)是一种专门设计用于处理序列数据(如文本、语音、时间序列等)的神经网络模型。其核心思想是通过引入时间上的循环连接,使网络能够保留历史信息并影响当前输出。
2025-05-30 00:09:33
1168
4
原创 卷积神经网络(CNN)模型
卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,广泛应用于图像识别、计算机视觉等领域。其设计理念源于对生物视觉皮层神经机制的模拟,核心原理是通过卷积、池化(下采样)、全连接等操作,自动提取输入数据的层级特征,完成分类或回归任务。
2025-05-26 13:42:43
1063
原创 常见的激活函数汇总
在神经网络中,激活函数(Activation Function)扮演着至关重要的角色,它为神经网络引入非线性因素,使得网络能够学习和模拟复杂的非线性函数关系,从而具备处理各种复杂问题的能力。如果没有激活函数,多层神经网络将仅仅是一个线性组合模型,其表达能力会受到极大限制。以下是几种常见的激活函数汇总。
2025-05-16 01:04:16
1056
原创 人工神经网络(ANN)模型
人工神经网络(Artificial Neural Network,ANN),是一种模拟生物神经网络结构和功能的计算模型,它通过大量的神经元相互连接,实现对复杂数据的处理和模式识别。从本质上讲,人工神经网络是对人脑神经细胞的数学抽象,试图模仿人类大脑处理信息的方式,以解决各种实际问题。
2025-05-15 22:59:24
1007
原创 基于主成分分析(PCA)的数据降维
主成分分析(Principal Component Analysis,简称 PCA)是一种用于数据降维的方法,其核心目标是在尽可能保留原始数据信息的前提下,将高维数据映射到低维空间。该算法基于方差最大化理论,通过寻找数据的主要变化方向(即主成分),将原始数据投影到这些方向上,从而实现降维。
2025-05-08 19:09:52
1051
原创 LightGBM算法原理及Python实现
LightGBM 由微软公司开发,是基于梯度提升框架的高效机器学习算法,属于集成学习中提升树家族的一员。它以决策树为基学习器,通过迭代地训练一系列决策树,不断纠正前一棵树的预测误差,逐步提升模型的预测精度,最终将这些决策树的结果进行整合,输出最终的预测结果。
2025-05-06 23:45:31
947
原创 CatBoost算法原理及Python实现
CatBoost 是在传统GBDT基础上改进和优化的一种算法,由俄罗斯 Yandex 公司开发,于2017 年开源,在处理类别型特征和防止过拟合方面有独特优势。在实际数据中,存在大量的类别型特征,如性别、颜色、类别等,传统的算法通常需要在预处理中对这些特征进行独热编码(One-Hot Encoding)或标签编码(Label Encoding)。但这些方法存在一些问题,独热编码会增加数据的维度,导致模型训练时间变长;标签编码可能会引入不必要的顺序关系,影响模型的准确性。CatBoost 采用了一种独特的处
2025-05-05 17:41:55
1115
原创 XGBoost算法原理及Python实现
XGBoost 在构建决策树时,利用了二阶导数信息。在损失函数的优化过程中,不仅考虑了一阶导数(梯度),还引入了二阶导数(海森矩阵),这使得算法能够更精确地找到损失函数的最优解,加速模型的收敛速度,同时提高模型的泛化能力。此外,XGBoost 还加入了正则化项,包括 L1 和 L2 正则化,用于控制模型的复杂度,防止过拟合。
2025-05-04 16:18:23
1113
原创 AdaBoost算法的原理及Python实现
AdaBoost(Adaptive Boosting,自适应提升)是一种迭代式的集成学习算法,通过不断调整样本权重,提升弱学习器性能,最终集成为一个强学习器。它继承了 Boosting 的基本思想和关键机制,但在具体的实现中有着显著特点,成为具有一定特定性能和适用场景的集成学习算法。
2025-04-30 19:11:24
881
原创 GBDT算法原理及Python实现
GBDT(Gradient Boosting Decision Tree,梯度提升决策树)是集成学习中提升(Boosting)方法的典型代表。它以决策树(通常是 CART 树,即分类回归树)作为弱学习器,通过迭代的方式,不断拟合残差(回归任务)或负梯度(分类任务),逐步构建一系列决策树,最终将这些树的预测结果进行累加,得到最终的预测值。
2025-04-29 20:55:44
761
原创 Bagging、Boosting、Stacking的原理
Bagging、Boosting、Stacking是常见集成学习的形式,它们都是通过对多个学习器进行有机组合,达到比单个学习器性能更好的目标。
2025-04-27 14:23:12
1238
原创 感知机模型
感知机模型(Perceptron Model)也叫做神经元模型,设计灵感即来自于生物神经元的运行机制,依次完成信息接收、处理、输出的过程。当前大放异彩的各种人工神经网络模型即由一个个人工神经元构成,因此,本文介绍的感知机模型(神经元模型)就是各种神经网络模型的基本单元。
2024-09-06 11:53:49
1291
原创 逻辑回归模型
逻辑回归模型(Logistic Regression,LR),由名称上来看,似乎是一个专门用于解决回归问题的模型,事实上,该模型更多地用于解决分类问题,尤其是二分类问题。这并不矛盾,因为逻辑回归直接输出的是一个连续值,我们将其按值的大小进行切分,不足一定范围的作为一个类别,超过一定范围的作为一个类别,这样就实现了对分类问题的解决。概况来说就是,先对数据以线性回归进行拟合,输出值以Sigmoid函数进行映射,映射到0和1之间,最后将S曲线切分上下两个区间作为类别区分的依据。
2024-09-05 22:28:45
1121
原创 分类模型的算法性能评价
分类模型是机器学习中一种最常见的问题模型,在许多问题场景中有着广泛的运用,是模式识别问题中一种主要的实现手段。分类问题概况起来就是,对一堆高度抽象了的样本,由经验标定了每个样本所属的实际类别,由特定算法训练得到一个分类器,输入样本属性即自动计算出其所属类别,从而完成特定的识别任务。在特定问题中,算法性能的评价是一个重要的方面,它一般由学习器在测试数据中的性能表现来直接衡定,常见的评价指标有准确率、精准度(查准率)、召回率(查全率)、F1值、ROC-AUC值、Kappa系数等。
2024-07-09 15:31:58
1208
原创 AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘. Did you mean: ‘FigureCanv
matplotlib切换图形界面显示终端为TkAgg。多是由环境的兼容性导致。
2024-07-08 17:22:21
277
原创 聚类模型的算法性能评价
作为机器学习领域的重要内容之一,聚类模型在许多方面能够发挥举足轻重的作用。所谓聚类,就是通过一定的技术方法将一堆数据样本依照其特性划分为不同的簇类,使得同一个簇内的样本有着更相近的属性。依不同的实现策略,聚类算法有很多种,如基于距离的k-means、基于密度的DBSCAN等。在聚类完成之后,其性能的评估是一个不可规避的问题,常见的评估方法依有无事先的标记性信息分为外部评估法和内部评估法。
2024-06-27 17:45:24
1564
1
原创 回归模型的算法性能评价
在一般形式的回归问题中,会得到系列的预测值,它们与真实值(ground truth)的比较表征了模型的预测能力,为有效量化这种能力,常见的性能评价指标有可解释方差(EVS)、平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)、决定系数(R2)等。值得一提的是,回归问题分单输出情形和多输出情形,在多输出情形下,可以对各维度结果进行平均计算或以不同的权重进行计算。
2024-06-05 16:47:53
1152
原创 Python缺失值处理实现
在数据处理相关工作中,读取的数据中常常会有缺失值的情况,为顺利进行后续的操作,需要首先对缺失值进行处理,处理的方式一般为**删除**或**填充**,Python中提供了专门的工具包,可以方便地进行实现。读取操作可以由pandas模块实现,通常直接读一个excel或csv文件,创建为DataFrame对象,模块中的dropna方法和fillna方法可以实现对缺失值的删除和填充。
2023-11-28 23:32:41
2070
原创 三种常见的平滑滤波方法
均值滤波、中值滤波、高斯滤波是三种常见的平滑滤波方法,其中均值滤波和高斯滤波是线性技术,中值滤波是非线性技术。它们实现的基本原理是基本一致的,指定一个滑动窗口,计算其中的均值、中值、卷积值输出到当前位置。均值滤波、高斯滤波对高斯噪声表现较好,但对椒盐噪声表现较差;中值滤波则对椒盐噪声表现较好,对高斯噪声表现较差。
2023-08-10 00:44:51
10493
1
原创 DBSCAN聚类
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视为噪声点,因此DBSCAN聚类的方式也可以用于异常点的检测。
2023-08-05 18:36:49
567
【数据分析与处理】基于主成分分析(PCA)的数据降维方法详解
2025-05-08
机器学习LightGBM算法原理详解与Python实现
2025-05-06
机器学习CatBoost算法原理及其Python实现
2025-05-05
机器学习XGBoost算法原理详解及Python实现
2025-05-04
机器学习AdaBoost算法原理与Python实现:集成学习中提升弱学习器性能的技术详解及应用实例
2025-04-30
机器学习GBDT算法原理详解及Python实现:涵盖梯度下降与决策树构建全过程
2025-04-29
机器学习集成学习中Bagging、Boosting、Stacking算法原理及应用:提升模型性能的关键技术解析
2025-04-26
聚类模型的算法性能评价
2024-06-27
kNN算法原理与python实现 博客地址:https://blog.csdn.net/Albert201605?type=bl
2023-01-07
SAD+MAD+SSD+MSD+NCC算法matlab实现代码
2022-12-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人