
机器学习
文章平均质量分 75
机器学习笔记内容
落难Coder
这里是我的笔记,而你恰好看到
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习之逻辑回归
线性回归和逻辑回归区别?在前面讲述的回归模型中,处理的因变量都是数值型区间变量,建立的模型描述是因变量的期望与自变量之间的线性关系。比如常见的线性回归模型:而在采用回归模型分析实际问题中,所研究的变量往往不全是区间变量而是顺序变量或属性变量,比如二项分布问题。通过分析年龄、性别、体质指数、平均血压、疾病指数等指标,判断一个人是否换糖尿病,Y=0表示未患病,Y=1表示患病,这里的响应变量是一个两点(0-1)分布变量,它就不能用h函数连续的值来预测因变量Y(只能取0或1)。原创 2022-11-03 23:46:50 · 565 阅读 · 0 评论 -
机器学习之KNN算法
KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居,毫无疑问,K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢?其实啊,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。图中绿色的点就是我们要预测的那个点,假设K=3。原创 2022-11-03 23:42:45 · 179 阅读 · 0 评论 -
机器学习之感知机
感知机是一种较为简单的二分类模型,但由简至繁,感知机却是神经网络和支持向量机的基础。感知机旨在学习能够将输入数据划分为+1/-1的线性分离超平面,所以说整体而言感知机是一种线性模型。因为是线性模型,所以感知机的原理并不复杂。原创 2022-11-03 23:41:39 · 197 阅读 · 0 评论 -
Sklearn库中的数据集
scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是通用机器学习算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多,还包括大量详尽的文档和示例。其文档写得通俗易懂,完全可以当成机器学习的教程来学习。原创 2022-08-20 21:09:05 · 4261 阅读 · 0 评论 -
机器学习模型的“可解释性”
在自下而上的数据科学方法中,我们将部分业务流程委托给机器学习模型。此外,全新的商业创意可通过机器学习实现。自下而上的数据科学通常将手动和部分困难任务自动化。例如制造公司可以将传感器放在他们的机器上并进行预测维护。因此,维护工程师可以更高效地工作,而无需执行昂贵的定期检查。模型可解释性对于验证模型的行为是否符合您的期望是很有必要的,并且它可以与用户建立信任关系,并且可以简化从手动过程到自动化过程的过渡。图显示在一个自上而下的过程中,您迭代地构造和验证一组假设。...原创 2022-08-03 19:15:26 · 3083 阅读 · 0 评论 -
什么是机器学习
机器学习从字面来看可以理解为是“让机器去学习”。我们人类,从小到大一直都在不停地学习与进步。最终用学来的知识造福整个社会。如果让某台机器也去学习,那么它将会具备和人类类似的思维方式。也就是可以实现让机器去造福人类社会,这无疑就是时代的进步。那么,机器学习到底是要让机器学会什么呢?要回答这个问题,就需要从人类的学习讲起。我们回想一下学生时代。在课本中,告诉了我们加法的计算方法和一些例题。有了这些输入后,我们就去学习并掌握了关于加法的知识点。那么在考试中,即使我们没有见过101+205的例题,也可以轻松回答出答原创 2022-06-07 11:24:49 · 355 阅读 · 0 评论 -
朴素贝叶斯(Naive Bayes model)
朴素贝叶斯是一种基于贝叶斯定理和特征条件独立假设的分类算法。简单而言,对于给定的训练数据,朴素贝叶斯先基于特征条件独立假设学习输入和输出的联合概率分布,然后基于此分布对于新的实例,利用贝叶斯定理计算出最大的后验概率。朴素贝叶斯不会直接学习输入输出的联合概率分布,而是通过学习类的先验概率 和类条件概率 来完成。所谓朴素贝叶斯中朴素的含义,即特征条件独立假设,条件独立假设就是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使得朴素贝叶斯的学习成为可能。朴素贝叶斯算法具体步骤如下。首先计算类先验概率:类先原创 2022-06-07 11:22:15 · 11012 阅读 · 0 评论 -
机器学习之线性代数
我们主要学习与机器学习相关的线性代数知识,主要包括向量和矩阵的乘法、范数、求导等基本运算,及其在机器学习中的应用等内容。线性代数是数学的一个分支。相信你在大学时,一定学习过这门课程,甚至可能会为通过考试而熬夜苦战。根据我的感受,线性代数这门课并不简单,但是比高等数学还是要容易一些。从机器学习的视角来看,线性代数是必须要了解的,但不需要达到精通的程度。为了不让线性代数成为学习机器学习的绊脚石,你需要掌握向量、矩阵的各种基础运算。值得一提的是,当你掌握线性代数的逻辑和套路时,线性代数就是纸老虎。既然名字叫作线性原创 2022-06-07 11:19:46 · 1543 阅读 · 0 评论 -
机器学习之统计学
本次我们学习与机器学习相关的统计学相关知识,主要包括统计量、中心极限定理、均值假设检验、AB 实验方法等内容。根据现状,很多从事机器学习工作相关的人并没有太多统计学的知识储备。不得不说,缺乏统计学的知识,并不会阻碍你用机器学习技术去建立模型。那么为什么还要在此强调统计学的重要性呢?甚至还专门用一个课时来说明它呢?原因主要在于模型灰度或应用阶段的评估。我们知道,机器学习是以数据分析、预测为基础,来优化业务决策的一门技术。那么,在模型灰度测试时,如果你不具备基础的统计学知识,就无法分辨模型带来的效果提升是随机波原创 2022-06-07 11:19:13 · 1498 阅读 · 0 评论 -
机器学习之数学基础
人工智能技术可以让机器帮助人类做出做好的决策 。这个决策是在某些限定条件下的取舍。例如,小明在填写高考志愿时,需要在多所目标高校中选择最合适自己的那所。假设在这个过程中,小明的决策依据是学校综合实力和被录取可能性的求和。对于北大、北理工、北大青鸟,三所学校的综合实力排名是递减的关系;而对于小明而言,他被录取的可能性是递增的关系。因此,在决策志愿时,就需要综合考虑这两个因素,以保证自己的考学利益最大化。此时,这个问题就是一个最优化决策的数学问题。这个例子非常简单,可能简单扫一眼,人们就能得到最优决策的结果。能原创 2022-06-07 11:18:35 · 1065 阅读 · 1 评论 -
机器学习之概率论
概率论研究的是事物的不确定性。它是大学数学课程之一,是统计学、信息论的前置课程。相对其他数学课而言,概率论的难度系数属中等,毕竟你在高中就学习过如何计算一个随机变量的期望、方差。从机器学习的视角来看,概率论是必须要了解的,但远不需要达到精通的程度。你只需要灵活运用它,去把机器学习世界的不确定性变量算清楚就足够了。因此,当你掌握概率论的窍门后,概率论就是纸老虎。我们先从计算某个事件的概率说起。概率是对事件发生可能性的刻画,概率越大事件发生的可能性越大。例如,中国国足与巴西国足将会在明天踢一场友谊赛。既有经验告原创 2022-06-07 11:17:48 · 1660 阅读 · 0 评论 -
机器学习之混淆矩阵
在得到模型后,你需要借助一些指标来评估这个模型的好坏。人在学习后,会通过考试来评价学习效果,最终会评出优等生、差等生。机器学习也是一样的。区别只是机器学习会根据问题的不同,用不同的指标来进行模型效果的评估。对于分类问题,混淆矩阵是一种直观的模型效果分析方法。假设有个二分类模型,可以对一件事的正(P)负(N)作出判断。这样,在一次判断中,存在真实结果 y^\hat{y}y^ 和预则结果y。如果二者相等,也就是本次预测结果正确;反之则错误。假设有100个不同的测试用例,就会有以下四种可能性:我们把这四种情况进原创 2022-06-07 11:16:16 · 722 阅读 · 0 评论 -
机器学习之感知机算法
感知机是一种较为简单的二分类模型,但由简至繁,感知机却是神经网络和支持向量机的基础。感知机旨在学习能够将输入数据划分为+1/-1的线性分离超平面,所以说整体而言感知机是一种线性模型。因为是线性模型,所以感知机的原理并不复杂。假设输入x表示为任意实例的特征向量,输出y={+1,-1}为实例的类别。感知机定义由输入到输出的映射函数如下:其中sign符号函数为:w和b为感知机模型参数,也是感知机要学习的东西。w和b构成的线性方程wx+b=0极为线性分离超平面。假设数据是线性可分的,当然有且仅在数据线性可分的情况下原创 2022-06-02 11:57:10 · 1346 阅读 · 0 评论 -
机器学习之线性回归(Linear Regression)算法
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小 。线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式:y^\hat{y}y^ 为预测值,自变量x和因变量y是已知的,而我们想实现的是预测新增一个x,其对应的y是多少。因此,为原创 2022-06-02 11:44:20 · 19662 阅读 · 1 评论 -
机器学习之逻辑回归(Logistics Regression)算法
在前面讲述的回归模型中,处理的因变量都是数值型区间变量,建立的模型描述是因变量的期望与自变量之间的线性关系。比如常见的线性回归模型:而在采用回归模型分析实际问题中,所研究的变量往往不全是区间变量而是顺序变量或属性变量,比如二项分布问题。通过分析年龄、性别、体质指数、平均血压、疾病指数等指标,判断一个人是否换糖尿病,Y=0表示未患病,Y=1表示患病,这里的响应变量是一个两点(0-1)分布变量,它就不能用h函数连续的值来预测因变量Y(只能取0或1)。总之,线性回归模型通常是处理因变量是连续变量的问题,如果因变量原创 2022-06-02 11:43:16 · 465 阅读 · 0 评论 -
机器学习之K-means算法
聚类与分类算法的最大区别在于, 分类的目标类别已知(监督学习), 而聚类的目标类别是未知的(无监督学习)。K-Means算法(K-均值算法)就是无监督算法之一,主要用于样本的聚类。其思想很简单,对于给定的样本集,按照样本与聚类中心之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连接在一起,让簇间的距离尽量的大。上图a表达了初始的数据集,假设k=2。在图b中,我们随机选择了两个k类所对应的类别质心,即图中的红色质心和蓝色质心,然后分别求样本中所有点到这两个质心的距离,并标记每个样本的类别为和该样本距原创 2022-06-02 11:40:02 · 1510 阅读 · 0 评论 -
机器学习之KNN算法
KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法K-means有点像(K-means是无监督学习算法),但却是有本质区别的。KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居,毫无疑问,K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢?其实啊,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属原创 2022-06-02 11:36:01 · 1013 阅读 · 0 评论 -
安装亚马逊自动学习工具-autogluon
!pip install -U pip!pip uninstall enum34!pip install -U setuptools wheel!pip install ConfigSpace==0.4.18pip install -U "mxnet<2.0.0"!pip install autogluon==0.2.0原创 2021-06-02 14:28:29 · 1712 阅读 · 0 评论 -
【《机器学习》第3章线性模型】对数几率回归/逻辑回归+多分类学习
逻辑回归基本思想逻辑回归:通过回归的思想来解决二分类问题的算法。将样本所属正例的概率作为模型的输出,根据此概率值对样本的类别进行预测。在线性回归中回归的输出的值域在(-∞,+∞)逻辑回归中概率的值域在(0,1)所以我们要使用逻辑回归解决一个问题就必须要找到一个函数,这个函数可以将线性回归得到的(-∞,+∞)的实数转换成(0,1)的概率值 。逻辑回归中就是使用Sigmoid函数实现这种转换!单位阶跃函数与对数几率函数对数几率回归 —— Logistic Regression逻辑回原创 2020-09-28 09:00:47 · 1101 阅读 · 0 评论 -
【《机器学习》第3章线性模型】基本形式+线性回归
凸函数凸函数与凹函数凸函数判断:如果是一元函数 f(x)f(x)f(x) ,我们可以求二阶导数 f′′(x)f''(x)f′′(x) ,如果二阶导 f′′(x)f''(x)f′′(x) 总是非负,即总是大于等于0, f(x)f(x)f(x)就是凸函数。如果是多元函数 f(X)f(X)f(X) ,我们可以通过Hessian矩阵(由多元函数的二阶导数组成的方阵),如果Hessian矩阵是半正定矩阵,则是 f(X)f(X)f(X) 凸函数。损失函数损失函数用来衡量模型拟合成都的好坏线性回归原创 2020-09-28 08:31:17 · 552 阅读 · 0 评论 -
【《机器学习》第1章绪论】机器学习+假设空间、版本空间+归纳偏好+AI发展与应用现状
什么是机器学习机器学习:通过算法使得机器从大量历史数据中学习规律,从而对新样本做出分类或者预测基本术语泛化能力:学得模型应用新样本的能力机器学习-泛化能力有监督学习:回归、分类无监督学习:降维、聚类假设空间归纳是特殊到一般的泛化过程演绎是从一般到特殊的特化过程概念学习要求从训练数据学得概念布尔概念学习:对是、不是这样的可以表示成0/1布尔值的目标概念学习学习的过程可以看作一个在所有假设组成的空间中进行搜索的过程。搜索目标是找到与训练集“匹配”的假设。版本空间版本空原创 2020-09-27 10:00:06 · 370 阅读 · 0 评论 -
【《机器学习》第2章模型的评估与选择】误差与过拟合、欠拟合+验证集、训练集、测试集+回归、分类评价指标
训练集、测试集、验证集训练集:用于进行模型拟合的数据;验证集: 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估;测试集:用来评估模最终模型的泛化能力;注意:测试集不能作为调参、选择特征等算法相关的选择的依据。简记为:训练集是日常的学习,验证集是模拟考,测试集是高考。误差:学习器的预测输出与样本的真实输出之间的差异;训练误差:学习器在训练集上的误差;泛化误差:学习器在测试集上的误差;过拟合与欠拟合过拟合欠拟合交叉验证k折原创 2020-09-24 17:24:49 · 3032 阅读 · 0 评论 -
【《机器学习》第6章支持向量机】间隔与支持向量+对偶问题+核函数+软间隔与硬间隔
线性分类器回顾在一个线性分类中,我们可能会拟合出多条直线来完全区分样本类别,但是这些直线中有没有好坏呢?答案是肯定的。间隔与支持向量支持向量:距离超平面最近的样本点(可能是两个或者多个)。间隔:两个异类 支持向量到超平面的距离之和 。支持向量机就是寻找具有最大间隔 的超平面。间隔方程见课件例题优化问题的类型无约束优化问题求解方法:求取函数 f(x)f(x)f(x) 的导数,然后令其为零,可以求得候选最优值,再在这些候选值中验证;如果是凸函数,可以保证是最优解。有等式约束优化原创 2020-09-24 16:46:50 · 1187 阅读 · 0 评论 -
【《机器学习》第5章神经网络】神经元模型+感知机与多层网络+误差逆传播算法+全局最小与局部最小
神经网络模拟人脑的神经系统而来MP神经元模拟人类的一个神经元,是一个单层的神经网络,被称为“简单单元”MP神经元与感知机的关系逻辑回归到神经元逻辑回归中主要包括线性变换和非线性变换两部分,神经元中,可以把线性和非线性看成一个整体。感知机感知机由两层神经元组成,输入层接受外界输入,输出层是一个MP神经元。对于一个二维平面的二分类问题,感知机将会不断的逐点修正 ,首先在超平面上随意取一条分类面,统计分类错误的点 ;然后随机对某个错误点就行修正 ,即变换直线的位置,使该错误点得以修正;接着再随原创 2020-09-23 20:13:51 · 794 阅读 · 0 评论 -
【《机器学习》第5章神经网络】其他常见神经网络+深度学习
深度学习所谓深度学习模型就是深层次的神经网络。提升深度学习模型的复杂度 -> 提升模型学习能力:增加隐含层神经元数目(模型宽度)增加隐含层数目(模型深度)一般来说,增加隐含层数目(模型深度)比增加隐含层神经元数目(模型宽度)更有效 ,因为这不仅增加了拥有激活函数的神经元数,还增加了激活函数嵌套的层数。提升深度学习模型的复杂度 -> 增加了过拟合风险;增加了训练难度:过拟合风险:使用大量训练数据训练困难:使用若干启发式诀窍误差梯度在多隐含层传播时,往往会发散而不能收原创 2020-09-23 16:44:17 · 830 阅读 · 0 评论