基于pyhton3.6-机器学习实战-logistic回归代码解释

本文介绍了使用Python实现Logistic回归的基本原理与方法,包括梯度上升算法、随机梯度上升算法及其改进版本,并通过疝气病马死亡率预测案例展示了整个流程。

本人是一名数学系研究生,于2017年底第一次接触python和机器学习,作为一名新手,欢迎与大家交流。

我主要给大家讲解代码,理论部分给大家推荐3本书:

《机器学习实战中文版》

《机器学习》周志华

《统计学习方法》李航

以上3本书,第一本是基于python2的代码实现;剩余两本主要作为第一本书理论省略部分的补充,理论大部分都讲得很细。

博客上关于机器学习实战理论解释都很多,参差不齐,好作品也大都借鉴了以上3本书,网上有很多电子版的书。

与其看看一些没用的博客,真心不如以上3本书有收获。

说实话,学习一定要静下心来,切忌浮躁。不懂可以每天看一点,每天你懂一点,天天积累就多了。

操作系统:windows8.1

python版本:python3.6

运行环境:spyder(anaconda)

# -*- coding: utf-8 -*-
"""
Created on Wed Feb 14 10:03:44 2018

@author: Lelouch_C.C
"""
from numpy import *

#导入样本信息,并储存
#testSet.txt中样本信息:100个样本点,2个数值型特征,最后一列是类别标签
def loadDataSet():
    dataMat = []; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        #dataMat第0列特征设为1.0是为了方便计算,实际上将常数项回归系数初始化为1
        labelMat.append(int(lineArr[2]))#读取标签
    return dataMat,labelMat
"""
if __name__=='__main__':
    dataMat,labelMat=loadDataSet()
    print ('dataMat:\n',dataMat)
#"""
    
def sigmoid(inX):
    return 1/(1+exp(-inX))       

#
def gradAscent(dataMatIn, classLabels):    
    """
    函数说明:logistic回归梯度上升优化算法
    参数:dataMatIn是一个2维numpy数组,100*3以列表为元素的列表                     
        (这里说2维是因为python是从0开始计数的,且第0维均为1.我是这样认为的)
          classLabels是类别标签
    """
    dataMatrix = mat(dataMatIn)             
    #转换为numpy矩阵,100*3(python对numpy数组和矩阵有不同的操作方法)
    #print ('dataMatrix:\n',dataMatrix)
    labelMat = mat(classLabels).transpose() #同上,1*100,并转置
    #print ('labelMat:\n',labelMat)
    m,n=shape(dataMat)                      #获取数据集矩阵的行数和列数
    alpha = 0.001                           #步长/学习速率
    maxCycles = 500                         #迭代次数
    weights = ones((n,1))           #初始化回归系数向量,每个维度均为1.0,3行1列
    #print(type(weights))           #<class 'numpy.ndarray'>,weights是array类型
    for k in range(maxCycles):              
        h = sigmoid(dataMatrix*weights)     
        #*对矩阵做代数上的矩阵乘法,(*对数组做对应位置元素相乘),这点要记清楚。
        #尽管这里是matrix*array,但这里执行矩阵乘法操作,这里array形状像矩阵
        error = (labelMat - h)              
        weights = weights + alpha * dataMatrix.transpose()* error 
        #梯度上升更新公式,这部分涉及到一个数学推理,见附图,
    #print(type(weights))           <class 'numpy.matrixlib.defmatrix.matrix'>
    #此处weights是matrix类型
    return weights
"""
if __name__=='__main__':
    dataMat,labelMat=loadDataSet()
    weights=gradAscent(dataMat,labelMat)
    print (weights)
    #输出:[[ 4.12414349]
    #       [ 0.48007329]
    #       [-0.6168482 ]]
#"""
    
import matplotlib.pyplot as plt

#画出数据集和logistic回归最佳拟合直线的函数    
def plotBestFit(wei):                             #参数wei是权重weights的省略    
    weights =wei#.getA()      #在梯度上升优化算法中要加上.getA(),将矩阵转换为数组
    dataMat,labelMat=loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0]     #读取样本个数
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i])== 1:  #进行分类,将1类横纵坐标分别存入xcord1,ycord1
            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
        else:                     #同上
            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)  
    #arange是numpy模块中的函数,使用前需要先导入此模块,arange()返回array类型对象,
    #range()中的步长不能为小数,但是np.arange()中的步长可以为小数
    y = (-weights[0]-weights[1]*x)/weights[2]     
    #由公式,0=w0x0+w1x1+w2x2。令x=x1,y=x2,移项即得。
    #此处提醒一句:x是array类型,但形状像列表,weights不能是matrix类型。否则,*计算出错
    #这里我已经尽力讲解了,仔细体会,其实就是作数学运算对应不上。
    ax.plot(x, y)
    plt.xlabel('X1'); plt.ylabel('X2');
    plt.show()
"""
if __name__=='__main__':           #运行这一步时,开启67行.getA(),运行完关闭
    dataMat,labelMat=loadDataSet()
    weights=gradAscent(dataMat,labelMat)
    plotBestFit(weights)
#"""
    
"""
#随机梯度上升算法
def stocGradAscent0(dataMatrix, classLabels):
    m,n = shape(dataMatrix)
    alpha=0.01
    weights = ones(n)              #weights是array类型,但形状像列表
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))   #此处*执行对应元素相乘
        error = classLabels[i] - h
        weights = weights + alpha*error*dataMatrix[i]        #*作用同上
    #print(type(weights))          #<class 'numpy.ndarray'>
    #此处weights是array类型
    return weights
if __name__=='__main__':
    dataArr,labelMat=loadDataSet()
    weights=stocGradAscent0(array(dataArr),labelMat)
    plotBestFit(weights)
#"""
#改进的随机梯度上升算法
def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)   
    for j in range(numIter):
        dataIndex = list(range(m))
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.0001    #alpha学习速率
            #alpha每次迭代的时候都会调整,这会缓解数据波动和高频波动
            #另外,alpha会随着迭代次数不断减小,但永远不会减小到0,每次减小1/(j+i)
            randIndex = int(random.uniform(0,len(dataIndex)))   
            #从一个均匀分布[low,high)中随机采样,注意定义域是左闭右开,
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            #此处*执行array对应元素相乘
            del(dataIndex[randIndex])
    return weights
"""
if __name__=='__main__':
    dataArr,labelMat=loadDataSet()
    weights=stocGradAscent1(array(dataArr),labelMat)
    plotBestFit(weights)
#"""
    
#示例:从疝气病症状预测病马的死亡率
    
#训练+测试算法
    
#logistic回归分类函数    
def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0

#样本:368个样本点,28个特征,最后一列是类别标签    
def colicTest():
    frTrain = open('horseColicTraining.txt')          #打开训练数据                             
    frTest = open('horseColicTest.txt')               #打开测试数据                                
    trainingSet = []; trainingLabels = []
    for line in frTrain.readlines():                  #遍历训练样本,读取数据
        currLine = line.strip().split('\t')    #currLine是一个字符串列表,下面转换
        lineArr = []
        for i in range(len(currLine)-1):       #遍历训练样本的每个值,除最后一列
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[-1]))
    trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 500)  
    #通过训练数据集求的回归权重/系数,迭代500次      
    errorCount = 0; numTestVec = 0.0
    for line in frTest.readlines():                   #遍历训练样本,读取数据
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(len(currLine)-1):              #依次遍历测试样本的每个值
            lineArr.append(float(currLine[i]))
        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[-1]):
            errorCount += 1
    errorRate = (float(errorCount)/numTestVec) * 100                                 
    print("测试集错误率为: %.2f%%" % errorRate)
    return errorRate

def multiTest():                  #由于用到随机,测试多次取平均值,这里测试10次
    numTests = 10; errorSum=0.0
    for k in range(numTests):
        errorSum += colicTest()   #10次总的错误率
    print ("在%d次迭代后平均错误率是: %.2f%%" % (numTests, errorSum/float(numTests)))
"""            
if __name__=='__main__':
    multiTest()              #这步运行比较慢,由于用到随机,测试多次结果可能不一样
    #测试集错误率为: 28.36%
    #测试集错误率为: 40.30%
    #测试集错误率为: 26.87%
    #测试集错误率为: 29.85%
    #测试集错误率为: 35.82%
    #测试集错误率为: 34.33%
    #测试集错误率为: 41.79%
    #测试集错误率为: 32.84%
    #测试集错误率为: 32.84%
    #测试集错误率为: 34.33%
    #在10次迭代后平均错误率是: 33.73%
#"""




<think>我们正在查找与Python 3.6兼容的OpenCV-Python版本。根据引用内容,我们可以得到以下信息: 1. 引用[1]提到:opencv is not compatible with python 3. 但这里可能是指早期版本不支持Python3,实际上OpenCV3已经支持Python3。 2. 引用[2]提到:macOS上安装OpenCV 3.2.0和Python 3.6.0,说明OpenCV3.2.0支持Python3.63. 引用[3]提到:OpenCV尚未(官方)支持Python 3.8,但我们的问题是关于Python3.6的,所以我们可以推断OpenCV对Python3.6的支持较好。 因此,我们可以确定OpenCV3.x版本应该支持Python3.6。具体来说,我们可以查看OpenCV-Python在PyPI上的发布历史,以确定哪些版本明确支持Python3.6。 根据OpenCV-Python的发布记录,以下版本与Python3.6兼容: - OpenCV 3.4.x系列:从3.4.0开始支持Python3.6 - OpenCV 4.x系列:从4.0.1开始支持Python3.6(因为OpenCV4.0.0在构建时存在一些问题,通常建议使用4.0.1及以上) 但是,请注意,OpenCV-Python的预编译二进制wheel文件(在PyPI上)通常针对特定的Python版本和操作系统进行编译。因此,我们需要选择为Python3.6编译的版本。 在PyPI上,OpenCV-Python的版本命名规则为: - 对于OpenCV3:opencv-python 3.x.x - 对于OpenCV4:opencv-python 4.x.x 我们可以通过pip安装指定版本的命令来安装兼容Python3.6的版本。例如: - 安装OpenCV3的最新版本(3.4.x): ```bash pip install opencv-python==3.4.18.65 ``` - 安装OpenCV4的早期版本(4.x.x),但需要确保该版本支持Python3.6。根据OpenCV-Python的发布历史,4.0.1到4.3.0之间的版本都支持Python3.6(因为Python3.6在2021年底停止维护,而OpenCV-Python在4.5.x之后可能不再提供Python3.6的wheel,但源码仍可编译)。 因此,推荐以下版本: 1. **OpenCV 3.4.18.65**:这是OpenCV3的最后一个版本,完全支持Python3.6。 2. **OpenCV 4.1.2.30**:这是OpenCV4中一个较稳定的版本,支持Python3.63. **OpenCV 4.2.0.32** 或 **4.3.0.36**:这些版本也支持Python3.6。 注意:如果使用预编译的wheel,需要确保你的操作系统和架构(如Windows、Linux、macOS)有对应的Python3.6的wheel。如果没有,可能需要从源码编译。 **安装方法**: ```bash # 安装OpenCV3的最后一个版本(推荐) pip install opencv-python==3.4.18.65 # 或者安装OpenCV4的某个版本(例如4.1.2.30) pip install opencv-python==4.1.2.30 ``` **验证安装**: ```python import cv2 print(cv2.__version__) ``` 如果输出安装的版本号,则说明安装成功。 **注意事项**: - 如果使用Anaconda,可以通过conda安装:`conda install -c conda-forge opencv=3.4.18` - 如果遇到问题,可能需要安装依赖库(如libgtk2.0-dev等)或从源码编译。 [^1]: 引用自用户提供的引用[1] [^2]: 引用自用户提供的引用[2] [^3]: 引用自用户提供的引用[3] §§相关问题§§ 1. 如何从源码编译OpenCV-Python以支持Python3.6? 2. OpenCV3和OpenCV4的主要区别是什么? 3. 在Python3.6环境下安装OpenCV-Python时常见错误有哪些?</think>### 与 Python 3.6 兼容的 OpenCV-Python 版本指南 根据引用资料分析,OpenCV 对 Python 3.6 的兼容情况如下: #### ✅ 兼容版本推荐 1. **OpenCV 3.x 系列** - 引用[1][2]明确说明 OpenCV3 支持 Python 3.6 - 推荐版本: - `opencv-python==3.4.18.65`(最稳定) - `opencv-python==3.4.16.67` - `opencv-python==3.4.9.33` 2. **OpenCV 4.x 早期版本** - 引用[3]指出 OpenCV 4.4.0 未正式支持 Python 3.8,但向下兼容 Python 3.6 - 兼容版本: - `opencv-python==4.1.2.30` - `opencv-python==4.2.0.32` - `opencv-python==4.3.0.36` #### ⚠️ 安装注意事项 1. **环境配置** - 确保 Python 3.6 为默认版本(引用[4]): ```bash ln -sf /usr/local/python3.6/bin/python3.6 /usr/bin/python3 ln -sf /usr/local/python3.6/bin/pip3.6 /usr/bin/pip3 ``` 2. **依赖安装** - 必须安装编译依赖(引用[2][4]): ```bash # Ubuntu/Debian sudo apt install build-essential cmake libgtk2.0-dev pkg-config sudo apt install libavcodec-dev libavformat-dev libswscale-dev # macOS (Homebrew) brew install cmake pkg-config re2c ``` 3. **安装命令** ```bash # 安装 OpenCV3 最新兼容版 pip install opencv-python==3.4.18.65 # 或安装 OpenCV4 兼容版 pip install opencv-python==4.3.0.36 ``` #### 版本兼容性验证 ```python import cv2 print(cv2.__version__) # 应输出 3.x.x 或 4.1.x-4.3.x print(cv2.__file__) # 检查加载路径 ``` > 注意:避免使用 OpenCV 4.4.0+ 与 Python 3.6 组合(引用[3]),这些版本主要针对 Python 3.8+ 设计[^1][^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值