ANN & Some Review

Hebb 

《行为的组织》(The Organization of Behavior)这本书中提出的三个假设,它们分别是:

  1. 突触(the synapse):指的是神经元之间传递信息的连接点,是神经网络中信息传递的基本单位。

  2. 细胞结集(the cell-assembly):指的是在大脑中,神经元可以形成特定的集合,这些集合在特定的行为或思维过程中被激活。

  3. 相序(the phase sequence):指的是这些细胞结集的激活顺序,它们按照一定的模式或序列被激活,从而产生特定的行为或思维过程。

 

 

 

1阶泰勒近似?

 

=


第一页:Why ANN?

原文要点

Challenge: Modern computer

  • Traditional

  • Powerful

  • Sequential

  • Logic-based digital
    ⇒ Less successful for other types of problems like common human activity.

  • Lack of intelligence: recognize the letter A or distinguish a cat from a bird;

  • Unable to correct mistakes in logic;

  • Depend on user’s input;

  • Only expert user can work on it;

  • No imagination and no its own decisions.


中英文翻译

  • 挑战:现代计算机

    • 传统(Traditional)

    • 强大(Powerful)

    • 顺序执行(Sequential)

    • 基于逻辑的数字运算(Logic-based digital)
      ⇒ 在诸如“日常人类活动”这类问题上不够擅长

  • 局限

    1. 缺乏智能:不能识别字母 A,也分不清猫和鸟;

    2. 无法自行纠正逻辑错误;

    3. 依赖用户输入;

    4. 只有专家用户能驾驭;

    5. 没有想象力,也不会自主决策。


通俗讲解
  1. “传统 + 强大 + 顺序 + 逻辑” 就像一台高速且精确的流水线机器——对准了规格化的、一步步可写程序的工作非常好。

  2. 但要让它做“分辨手写体”、“看图讲故事”或“自我纠错”这类灵活任务,就像让那台机器去即兴演奏、去下围棋、人际交流——力不从心

  3. 因此我们要往计算机里“植入”类似人脑的学习和适应机制,才能处理这些“常人一眨眼就完成”的场景。


第二页:Difference between Computer & Human Brain

原文要点

  • 人(Human)

    • I rely on food

    • I’m good at reasoning and creating

    • I’m a good learner

  • 机(Computer)

    • I rely on electricity

    • I’m good at computing logics

    • But I’m better at multitasking

  • 右侧还有AND、OR、NOR、NAND 逻辑门示意及真值表


中英文翻译

人(Human)机(Computer)
依赖食物 (I rely on food)依赖电力 (I rely on electricity)
擅长推理与创造 (I’m good at reasoning and creating)擅长计算与逻辑 (I’m good at computing logics)
学习能力强 (I’m a good learner)擅长多任务 (But I’m better at multitasking)
  • 逻辑门(Logic Gates)

    • AND(与门)、OR(或门)、NOR(非或)、NAND(非与)

    • 每个门只做“0/1”上的真值判断,缺乏“模糊”“联想”的能力。


通俗讲解
  • 人脑 vs 计算机

    • :像一台随身的创意工厂,灵活、能学习、会创造;

    • :像一台超高速计算器,速度快、能同时做很多小任务,但没有主动求知或想象。

  • AND/OR/NAND/NOR 门

    • 只能处理“是/否”“对/错”两个极端,就像“红绿灯”一样简单;

    • 人脑则可以在“灰色地带”里推理、联想、自己改规则。


第三页:Biological Neural Networks (BNN)

原文要点

  1. Soma — A neural cell body(神经细胞体)

  2. Dendrite — Branching extensions for receiving input(树突,接收信号)

  3. Axon — Carries the neuron’s output to other neurons(轴突,传输出去)

  4. Synaptic Gap — The minute space between an axon terminal and the target cell(突触间隙)

接下来一页又细分:

  • 三大组件

    1. 树突(dendrites)接收信号,通过化学过程跨越突触间隙;

    2. 细胞体(soma)对信号求和,进行“学习”;

    3. 当信号足够强烈,细胞就通过轴突(axon)“发射”电信号给下一批细胞。

  • 突触(Synapse):轴突末端与树突之间的“连接点”。


通俗讲解
  1. 把生物神经元想象成一家小工厂

    • 树突(Dendrite):门卫,负责接收外面其他工厂(神经元)送来的“原料”(信号);

    • 细胞体(Soma):车间,把原料全部堆到一起称重量、看质量(加权求和、判断是否触发);

    • 轴突(Axon):出货口,把处理后的“产品”(脉冲信号)送到下游工厂;

    • 突触(Synapse):装卸货的“传送带”接口,需要化学物质(神经递质)帮忙跨越小间隙。

  2. 为何要学 BNN?

    • 人脑里的这种“多单位并行+化学+电信号混合调节”机制,就是我们要模拟的智能底层原理。


复习选择题

  1. 下面哪个描述最符合“树突”的功能?
    A. 将本神经元的输出发送到其他神经元
    B. 接收来自其他神经元的输入信号
    C. 保存细胞的能量供给
    D. 控制神经元的分裂与生长

  2. Perceptron(感知机)模型中,偏置(bias)对应于泰勒展开中的哪一项?
    A. 一次项系数(偏导数乘输入)
    B. 常数项(函数在原点的值)
    C. 二次项系数
    D. 激活函数的斜率


答案与解析

  1. B
     树突(Dendrite)的主要功能是接收其他神经元传来的输入信号。

  2. B
     一阶泰勒展开中的常数项 f(0)f(0) 就对应 Perceptron 模型里的偏置项 bb。

 


一、What is an ANN?(Lecture 11–10)

原文要点

  1. “An information-processing system that has certain performance characteristics in common biological neural networks.”

  2. “Developed as generalizations of mathematical models of human neural biology, based on the assumptions:

    • Information processing occurs at neurons(神经元)

    • Signals are passed between neurons

    • Each connection link has an associated weight(权重)

    • An activation function is applied to each neuron”

中英翻译

  1. 什么是人工神经网络?

    一种模仿生物神经网络处理信息特性的系统。

  2. 它从生物神经模型抽象而来,主要假设:

    • 信息在“神经元”上处理。

    • 信号在神经元之间传递。

    • 每条连接都有一个“权重”决定它的重要性。

    • 每个神经元都会应用一个“激活函数”来决定是否“发火”。

通俗讲解
  • 比喻:把 ANN 想成“模拟大脑的小型工厂网”:

    1. 每个“工厂”(神经元)都拿到原料(输入)×分配给它的重要程度(权重)去混合求和;

    2. 然后经过一道“验收门槛”(激活函数),决定要不要“放行”(输出信号);

    3. 放行后信号再流向下一个工厂,层层推进。


二、从 BNN 到 ANN(Lecture 11–11)

原文要点

BNN ⇒ ANN

  • The processing element receives many signals which may be modified by a weight at the receiving synapse

  • The processing element sums the weighted inputs

  • The neuron transmits a single output to many other neurons (fanout)

  • Information processing is local

  • A synapse’s strength may be modified

  • Neurotransmitters for synapses may be excitatory or inhibitory

中英翻译

  • 处理单元接收多路信号,在“突触”处按权重加以调节

  • 对这些加权后的输入求和

  • 神经元把一个输出广播给很多下游(扇出)。

  • 信息处理都是局部进行的,不靠中心控制。

  • 突触的“强度”(权重)会随着经验改变。

  • 突触释放的神经递质可分为“兴奋型”或“抑制型”。

通俗讲解
  • 像水管网:多条水管(输入)先经过拧阀(权重),再汇入水箱(求和),水箱满到一定水位(阈值)就溢出(输出),再分支到下游多个水箱(扇出)。

  • 学习就是拧阀门:使用中,拧紧或拧松不同管道,让它们给水箱贡献不同流量。


人工神经网络(ANN)和生物神经网络(BNN)的核心区别之一。


一句话总结

生物神经网络的信号传递像“调节音量”,可以有无限种中间状态;人工神经网络的激活函数像“开/关开关”,输出只有固定的几种状态。​


详细解释

1. 生物神经网络(BNN)的连续信号传递
  • 类比​:想象你调节音响的音量旋钮,可以旋转到任意位置(比如30%、50%、80%),声音大小是连续变化的。
  • 实际机制​:
    • 生物神经元通过电脉冲(动作电位)传递信号,但信号的频率是连续的。例如,轻微刺激可能触发每秒10次脉冲,强刺激可能触发每秒100次脉冲。
    • 神经递质(化学信号)的释放量也是连续的,可以有“多一点”或“少一点”的中间状态。
  • 结果​:生物神经网络可以处理极其细腻的信号变化,适合复杂的实时反应(比如看到物体时微调抓握力度)。
2. 人工神经网络(ANN)的离散激活函数
  • 类比​:想象一个电灯开关,只有“开”(1)和“关”(0)两种状态,没有中间状态。
  • 实际机制​:
    • 人工神经元先对输入信号做加权求和​(类似生物神经元的树突接收信号),得到一个连续的数值(比如0.3、2.7、-1.5)。
    • 然后通过激活函数将这个连续值“压缩”成离散的输出。例如:
      • 阶跃函数​:输出要么是0(关闭),要么是1(打开)。
      • Sigmoid函数​:输出被压缩到0~1之间(比如0.2、0.8),虽然看起来是“连续”的,但实际应用中常被当作“概率”使用(离散决策的基础)。
  • 结果​:ANN通过这种“压缩”引入非线性,让网络能学习复杂规律(比如识别图片中的猫狗),但牺牲了生物神经系统的细腻度。

为什么会有这种区别?​

特性生物神经网络(BNN)​人工神经网络(ANN)​
信号传递连续(频率/强度可无限变化)离散(激活函数输出固定范围的值,如0~1)
学习方式通过突触强度自然调整(无明确算法)通过反向传播算法强制调整权重
计算目的实时生存反应(如躲避危险)解决数学问题(如分类、预测)

常见误解澄清

  • 误区​:有人认为ANN的激活函数是“非黑即白”的离散决策。
  • 事实​:大多数ANN的激活函数(如ReLU、Sigmoid)本质是连续的,只是输出范围被限制(比如0~1)。真正的“离散”处理(如阶跃函数)在现代ANN中极少使用,因为连续激活函数更利于梯度下降优化。

举个栗子🌰

假设你要教ANN判断“天气是否适合出门”:

  1. 输入层​:温度(25°C)、湿度(70%)、是否有雨(是/否)。
  2. 加权求和​:计算综合得分(比如 25×0.3 + 70×0.2 + 下雨×0.5 = 12.5)。
  3. 激活函数​:用Sigmoid将12.5压缩到0~1之间,比如0.8(表示“适合出门”的概率)。
  4. 输出​:根据阈值(比如0.5)判断最终结果(0.8 > 0.5 → 输出“是”)。

这里的Sigmoid虽然是连续函数,但最终通过阈值将结果“离散化”为二元决策(是/否),模拟了生物神经网络的“触发”行为。

三、ANN 的三大要素(Lecture 11–12)

原文要点

ANN can be characterized by

  1. its pattern of connections (architectures)

  2. its method of determining the weights (called training or learning)

  3. its activation function

ANN consists of a large numbers of simple processing elements called neurons, units, cells or nodes

ANN is motivated by a desire to try both to understand the brain and to emulate some of its strengths

中英翻译

  1. 连结模式(架构):神经元怎么连?是单层、三层,还是更深?

  2. 权重确定方法:用哪种算法来“学”出合适的权重(如反向传播、Hebb 学习等)。

  3. 激活函数:用哪种门槛或非线性函数来决定发不发信号(如 step、sigmoid、ReLU)。

  • ANN 由大量相似的“简单单元”构成。

  • 设计目标:一是理解大脑在干嘛,二是复制大脑的一些优点——比如学习、自适应、容错。

通俗讲解
  • 架构:好比盖房子,你得先定楼层数;

  • 训练算法:好比施工队用什么工艺来调试水电;

  • 激活函数:好比水管阀门的开关规则,是“全开/全关”还是“开一半也行”。


四、Shallow Learning:三层神经网络示意(Lecture 11–13)

原文要点

左图:A three-layer NN (‘Shallow Learning’)—输入层、隐藏层、输出层
右图:一个典型神经元模型

  • 输入模式(Input Pattern)带有一个常量 1(用于偏置)

  • 各输入×权重 → 求和(Net input φ)

  • 经过阈值器/激活函数 → 实际输出y_j

  • 将输出与期望 d_j 比较 → 误差 \epsilon_j = d_j - y_j

  • 误差反馈给“学习算法”更新权重 ΔW

中英翻译

  • 三层结构

    1. 输入层:接收原始特征 x1,x2,…(和一个恒为 1 的偏置节点)。

    2. 隐藏层:自动抽象特征,层数和神经元数可调。

    3. 输出层:给出最终分类或回归结果。

  • 单元内部

    1. 对输入乘权重求和,得到“净输入” φ\varphi;

    2. φ\varphi 过激活函数变成输出 y_j;

    3. 与理想结果 djd_j 比出误差 ϵj\epsilon_j;

    4. 用误差驱动“学习算法” 去修正各权重 ΔW\Delta W。

通俗讲解
  • 典型训练流程就像学舞蹈

    1. 先排练(前向传播):按当前步骤(权重)跳一遍(算一次输出);

    2. 对照标准(误差计算):教练看你哪里不到位(d_j - y_j);

    3. 回去改动作(反向传播):针对每步动作好不好(梯度),微调姿势(ΔW\Delta W);

    4. 再跳,直到动作和示范足够接近。

在神经网络中,"梯度"(gradient)是一个非常重要的概念,它指的是损失函数相对于网络参数(如权重 ΔW 和偏置 Δb)的变化率。简单来说,梯度告诉我们在参数空间中,哪个方向可以最快地减少损失函数的值。

梯度的通俗解释

想象你在一个山谷中,想要找到山谷的最低点(这代表损失函数的最小值)。梯度就像是指向最陡峭下降方向的箭头。你沿着这个方向走,就能最快地到达最低点。在神经网络中,这个“最低点”就是我们希望达到的最小损失状态,而“走下山谷”的过程就是通过调整权重和偏置来优化网络。

梯度在反向传播中的作用

  1. 计算梯度:在反向传播过程中,我们首先计算输出层的误差,然后逐层向后计算每一层的误差。每一层的误差会用来计算该层权重和偏置的梯度。

  2. 更新参数:一旦我们有了梯度,就可以使用这些信息来更新网络的权重和偏置。通常使用梯度下降算法,该算法通过从当前点沿着梯度的反方向(即减少损失的方向)迈出一小步来更新参数。

  3. 迭代优化:这个过程在训练过程中不断重复,每次迭代都会使网络的参数更接近最优解,从而减少预测误差。


复习选择题

  1. 下列哪一项不是 ANN 的核心要素?
    A. 网络连结模式(architecture)
    B. 权重训练算法(training)
    C. 激活函数(activation)
    D. 数据存储格式(data format)

  2. 在三层神经网络中,“隐藏层”主要作用是:
    A. 直接输出最终结果
    B. 接收原始输入并标准化
    C. 自动抽象和组合输入特征
    D. 存储模型文件

答案

  1. D (数据存储格式不是 ANN 的设计关键)

  2. C (隐藏层的职责正是对输入做高级特征抽象)

 

 

一、ANN 的应用场景(Lecture 11–16/12–15)

原文要点

  • Signal Processing
    – Suppress noise on a telephone line

  • Control
    – Learn how to steer the truck for the trailer to reach a dock

  • Pattern Recognition
    – Automatic recognition of handwritten characters
    – Handle large variation in sizes, positions & styles of writing

  • Medicine
    – Store a large number of medical records, each includes information on symptoms, diagnosis, & treatment for a particular case

  • Speech Production and Recognition
    – Read new one after training English words
    – Train speaker-independent recognition

  • Business
    – Mortgage assessment work (Use past experience to train ANN to provide more consistent & reliable evaluation of mortgage applications & determine whether the applicant should be given a loan)

中英翻译

  • 信号处理(Signal Processing)
    – 在线路上抑制噪声。

  • 控制(Control)
    – 学习如何驾驶卡车将挂车准确倒入码头。

  • 模式识别(Pattern Recognition)
    – 自动识别手写字符。
    – 处理写法在大小、位置、字体等方面的巨大差异。

  • 医疗(Medicine)
    – 存储大量病例,每条记录包含症状、诊断和治疗方案。

  • 语音合成与识别(Speech Production & Recognition)
    – 先训练英语单词,再朗读新词。
    – 训练不依赖说话者的识别系统。

  • 商业(Business)
    – 贷款评估:用历史案例来训练 ANN,让评估更一致、更可靠,判断贷款是否批准。

通俗讲解
  • 把 ANN 想成“万用小助手”:

    1. 在线通话时充当“降噪小能手”;

    2. 自动驾驶时当“倒车小专家”;

    3. OCR系统里做“识字能手”,哪怕写法千奇百怪也能读;

    4. 医院里的“电子病历管家”,帮医生快速查病例;

    5. 智能助教中训练发音,再听懂各种口音;

    6. 银行信贷里做“风控小官”,参考过去经验给出贷款建议。


二、ANN 的典型架构(Lecture 11–17/12–16)

原文要点

Typical Architectures

  • Single-layer ANN

  • Multi-layer ANN

  • Competitive layer

图示:

  1. 单层网络(输入→输出);

  2. 多层网络(输入→隐藏→输出);

  3. 竞争层(各输出节点相互抑制,只保留最强者)。

中英翻译

  • 单层网络(Single-layer ANN):只有一个权重层,直接把输入映射到输出。

  • 多层网络(Multi-layer ANN):含一个或多个隐藏层,可学习更复杂映射。

  • 竞争层(Competitive layer):输出节点两两竞争,通常只“赢家”有输出,适合聚类或“最匹配”检索。

通俗讲解
  • 单层:像把输入丢进一次搅拌机,马上出结果,简单但能力有限。

  • 多层:像分多道工序,一层提特征、一层合特征,结果更精准。

  • 竞争层:像选秀比赛,选手(输出节点)互相较量,只有最佳者胜出。


三、ANN 设计要点(Lecture 11–18/12–17、18)

1. 设置权重(Setting the Weights)

  • Supervised training(有监督训练):给出输入–输出对,网络“跟着范例”学。

  • Unsupervised training(无监督训练):只给输入,让网络自己找规律(如聚类)。

  • Fixed weights(固定权重):不学习,按手工设定,常见于特定滤波器或控制器。

2. 常用激活函数(Common Activation Functions)

  • Identity function(线性恒等)

  • Binary step function(二值阶跃)

  • Binary sigmoid (0,1)(0–1 单调 S 形)

  • Bipolar sigmoid (-1,1)(-1–1 对称 S 形)

通俗讲解
  1. 权重怎么来?

    • 有监督:好比跟着老师演示;

    • 无监督:好比自己摸索;

    • 固定:好比手动调好不再改。

  2. 阈值门怎么开?

    • 线性:没门槛,输入=输出;

    • 阶跃:像红绿灯,非黑即白;

    • Sigmoid:像水阀,拧得越多,流量越大且连续可调。


复习选择题

  1. 在无监督训练(Unsupervised training)中,通常不会用到哪项?
    A. 输入–输出标注对
    B. 聚类算法
    C. 自组织映射(SOM)
    D. 自编码器

  2. 哪个激活函数的输出范围是 −1-1 到 11?
    A. 恒等函数(Identity)
    B. 二值阶跃(Binary step)
    C. 0–1 Sigmoid
    D. Bipolar Sigmoid

答案

  1. A (无监督训练没有标签对,只靠输入自己找模式)

  2. D (Bipolar sigmoid 的输出范围是 −1 到 1)

下面我按照你发的每一页 PPT,逐页梳理历史脉络,帮你理清 ANN(人工神经网络)从萌芽到发展的“时间线”及每一步的核心人物和里程碑。


Slide 19–20(Lecture 11–20/21):1940s——ANN 的开端

  1. McCulloch–Pitts 神经元(1943)

    • 谁做的? Warren McCulloch 和 Walter Pitts。

    • 做了什么? 第一个“人工神经元”模型:输入信号加权求和,超过阈值就“发火”(输出1),否则不发火(输出0)。他们证明:这样的网络能实现任意布尔逻辑函数。

    • 为何重要? 它把神经元简化为“加权求和+阈值判断”的数学模型,奠定了 ANN 的基础。

  2. Hebb 学习规则(1949)

    • 谁做的? Donald Hebb。

    • 做了什么? 提出第一个学习法则:“同时激活则连接加强”(“cells that fire together wire together”)。

    • 为何重要? 这是神经网络最早的学习机制,为后续权重更新提供了生物学启示。


Slide 21(Lecture 11–21):1950s & 1960s——第一黄金时代

  1. 感知机 Perceptron(1958–1962)

    • 谁做的? Frank Rosenblatt。

    • 做了什么? 引入了 迭代权重调整 的学习算法,比 Hebb 法更强大,能解决简单线性可分问题。

    • 为何重要? 感知机开始让机器“自动学习”权重,出现了第一个真正意义上的训练算法。

  2. ADALINE(1960)

    • 谁做的? Bernard Widrow 及其学生。

    • 做了什么? 提出“delta 规则”,在均方误差上做梯度下降,调整权重以最小化输出和期望输出的差

    • 为何重要? ADALINE 使用连续输出,学习更平滑,奠定了后来的梯度方法基础。


Slide 22(Lecture 11–22):1970s——沉寂年(The Quiet Years)

这一时期虽少“大爆发”,但出现了多种自组织、联想记忆网络,为后续复兴打底:

  • Kohonen:提出自组织映射(SOM),用来做拓扑保持的聚类和降维。

  • Anderson:“Brain-State-in-a-Box”模型,早期的联想记忆网络。

  • Grossberg:从数学和生物双重角度发展 ANN,提出稳定竞争网络。

  • Carpenter & Grossberg:合作提出了自适应共振理论(ART),解决无监督学习中“忘旧知”的问题。


Slide 23(Lecture 11–23):1980s——热情再燃(Renewed Enthusiasm)

  1. 反向传播 Backpropagation(1985–86)

    • 谁做的? 由 Werbos、Parker、LeCun 等人发展。

    • 做了什么? 用链式法则将误差从输出层反传到隐藏层,迭代更新权重。

    • 为何重要? 使深度(多层)网络的训练成为可能,掀起第二次神经网络浪潮。

  2. Hopfield 网络(1982)

    • 谁做的? John Hopfield。

    • 做了什么? 基于固定对称权重,提供联想记忆和优化(约束满足)能力。

  3. Neocognitron(1975)

    • 谁做的? Fukushima。

    • 做了什么? 提出多层卷积样式网络,专门用于字符识别,是 CNN 的鼻祖。

  4. 玻尔兹曼机 Boltzmann Machine

    • 做了什么? 引入随机化权重更新(基于概率模型),与模拟退火和贝叶斯决策理论相关。

  5. 硬件实现

    • 并行光学神经网络、VLSI 实现开始出现,试图将 ANN 加速到硬件层面。


Slide 24–28(Lecture 11–24 到 11–28):McCulloch–Pitts 详解 & 线性可分边界

这几页回到McCulloch–Pitts 神经元的详细定义与例子,并引入线性可分性概念:

  • 二元阈值神经元:输入乘权重求和,再用 step 函数比较阈值。

  • 激励/抑制连接:权重要么正(促发),要么固定负(抑制)。

  • 典型逻辑函数实现

    • AND:两条输入权重大于阈值才输出1;

    • OR:任一输入权重大于阈值就输出1;

    • AND NOT、XOR(需两层网络)等。

  • 线性可分性:如果存在一条直线(或高维超平面)能把所有 +1 类别样本和 –1 类别样本分在两侧,就叫“线性可分”。Perceptron 只能解决线性可分问题。


小结时间线

  1. 1943:McCulloch–Pitts—首个数学神经元模型。

  2. 1949:Hebb 学习—首个学习法则。

  3. 1958–62:Perceptron—首个迭代训练算法;1960:ADALINE—最早梯度法。

  4. 1970s:自组织映射(Kohonen)、联想记忆(Anderson)、ART(Grossberg & Carpenter)等多种模型提出。

  5. 1980s:Backpropagation—深度、多层网络训练跨越式进展;同时出现 Hopfield、Boltzmann、Neocognitron 等重要分支。

  6. 此后:卷积神经网络、大规模并行硬件、深度学习方法不断演化,直至今日 AI 大爆发。


Hebb网的定义与双值(bipolar)形式解析

1. Hebb网的核心定义

Hebb网络是一种单层前馈神经网络,通过扩展的Hebb学习规则训练。其核心思想是:
​“若两个神经元同时激活,则它们之间的连接权重应增强。”​

  • 结构特点​:仅含输入层和输出层,无隐藏层(单层结构)。
  • 训练规则​:权重更新基于输入和输出的乘积(即协相关性)。
2. 双值(bipolar)形式的含义

双值形式指输入数据(xi​)和输出目标(y)均用​+1和-1表示,而非传统的0/1。例如:

  • 逻辑“是” → +1
  • 逻辑“否” → -1

输出目标(y)的含义与作用​​

输出目标(y)​​ 是神经网络在训练过程中期望得到的正确结果​(即标签或标准答案)。

 


Lecture 11–30:Hebb Net 概述 + 应用 1(AND 函数,二值输入)

幻灯片原文要点
  1. Hebb Net 定义

    • 单层前馈神经网络,使用扩展的 Hebb 规则训练。

    • 若数据用双值(bipolar)形式表示,权重更新可写作:

      wi(new)=wi(old)+xi y. w_i(\text{new}) = w_i(\text{old}) + x_i\,y.
  2. Application 1:实现 AND 函数(二值输入与目标)

    • 输入向量 (x1,x2,1)(x_1,x_2,1),目标输出(target)为 1 或 0。

    • 对每条样本,用 Δwi=xi y\Delta w_i = x_i\,y、Δb=y\Delta b=y 更新权重,反复迭代直到收敛。

通俗讲解
  • Hebb 规则:“同时激活则加权”——如果输入 xix_i 和输出 yy 都为 1,就把对应权重 wiw_i 加 1;否则不变。

  • AND 实例

    1. 初始化:w1=w2=b=0w_1=w_2=b=0。

    2. 样本 (1,1)→1 时,两输入都为 1,输出 1,权重都加 1,偏置加 1,变 (1,1,1)(1,1,1)。

    3. 对其余三个样本 (1,0),(0,1),(0,0)(1,0),(0,1),(0,0)→0 时,因 y=0y=0 故不再更新。

    4. 最终 w1=w2=b=1w_1=w_2=b=1,阈值 1 正好实现 AND:只有两输入都 1 时,net=1×1+1×1+1=3≥0net=1×1+1×1+1=3\ge0→输出 1;否则小于阈值 1→输出 0。


Lecture 11–31:Hebb Net 应用 2 & 3

Application 2:AND 函数(双值输入/目标)
  • 双值表示:用 {−1,+1}\{-1,+1\} 替代 {0,1}\{0,1\}。

  • 更新依然是 wi←wi+xiyw_i \leftarrow w_i + x_i y,但因为 yy 会是 ±1,所以权重可以正增也可减。

  • 举例:样本 (1,–1)→–1 时,Δw1=1×(–1)=–1\Delta w_1=1×(–1)=–1,Δw2=(–1)×(–1)=+1\Delta w_2=(–1)×(–1)=+1,Δb=(–1)\Delta b=(–1)。

Application 3:二维图案分类
  • 场景:识别两个 5×5 的点阵“图案”。

  • 输入单元:25 个,每个“#”记为 +1,“.”记为 –1。

  • 输出单元:1 个,+1 表示属 Pattern 1,–1 表示属 Pattern 2。

  • 训练:用上述 Hebb 更新规则,在有限样本上让权重收敛,学习区分这两种静态图案。

通俗讲解
  • 双值 AND:用 –1/1 能更直观地“反向抑制”——当目标 –1 时,Hebb 规则会把正的输入权重减小,把负的输入权重增大。

  • 图案分类:25 维输入拼成长向量,就像把一张 5×5 的黑白像素图“拉直”成一维,Hebb net 学习把这个向量投影到 +1/–1 空间中,实现简单的“模板匹配”分类。


Lecture 11–32:Hebb Net Example—OR 函数

幻灯片原文要点
  • 网络结构:3 个输入 (x1,x2,1)(x_1,x_2,1),3 条权重通道。激活函数用双值阶跃(bipolar step),输出 Y ∈ {–1,+1}。

  • 更新规则

    wi(new)=wi(old)+xi y,b(new)=b(old)+y. w_i(\text{new}) = w_i(\text{old}) + x_i\,y,\quad b(\text{new}) = b(\text{old}) + y.
  • 训练过程(6 步)

    1. 初始化 w1=w2=b=0w_1=w_2=b=0。

    2. 流程依次用 4 条训练样本 (x1,x2,y)={(−1,1,1),(1,−1,1),(1,1,1),(−1,−1,−1)}(x_1,x_2,y) = \{(-1,1,1),(1,-1,1),(1,1,1),(-1,-1,-1)\} 更新权重。

    3. 最终收敛到 w1=w2=b=2w_1=w_2=b=2,这组权重正好实现 OR:输入任一个 +1 时,net≥2net ≥ 2→输出 +1,否则输出 –1。

通俗讲解
  • OR 模板:Hebb net 依据“同时输入和输出都为 +1 则加权”,累积到最后,两个输入任意一个曾为 +1 时,都已把权重冲到 2;只有都为 –1 时,偏置 2 会被两次 –1 抵消,结果 0 小于阈值 0→输出 –1。

  • 直观流程

    • (–1,1)→+1:(w1,w2,b)=(–1,1,1)

    • (1,–1)→+1:(0,0,2)

    • (1,1)→+1:(1,1,3)

    • (–1,–1)→–1:(2,2,2)

    • 最终正是 OR 函数的权重解。


小结与复习题

  1. Hebb 规则更新权重的条件是?
    A. 只在预测错误时更新
    B. 输入与输出同为 +1 时更新
    C. 每次迭代都随机更新
    D. 只在目标为 0 时更新

  2. Hebb Net 只能解决哪类问题?
    A. 任何非线性可分问题
    B. 线性可分/模板匹配问题
    C. 序列预测问题
    D. 强化学习问题

答案

  1. B (只有当 xi=+1x_i=+1 且输出 y=+1y=+1 时,才会做 wi←wi+xiyw_i \leftarrow w_i + x_i y 更新)

  2. B (Hebb Net 属于单层前馈网络,适合线性可分或简单模板匹配)

 

感知机(Perceptron)关键概念解释

迭代学习

迭代学习是指感知机通过反复训练数据,逐步调整权重参数以改善分类性能的过程。算法会在每一轮迭代中对所有训练样本进行处理,根据预测结果与实际结果的差异来更新模型参数。

收敛

在感知机理论中,"收敛"意味着算法能够在有限次数的迭代后找到能够完美分类训练数据的权重参数。特别重要的是,感知机学习规则可以数学证明线性可分数据集上必定会收敛。

线性可分

线性可分是指可以用一条直线(二维空间)或超平面(高维空间)将不同类别的数据点完全分开的情况。只有当训练数据满足这一条件时,感知机才能保证收敛。对于非线性可分数据,感知机可能永远无法找到完美解决方案。

y_in(净输入)

y_in是神经元的输入值计算为输入特征与对应权重的加权和
y_in = w₁x₁ + w₂x₂ + ... + wₙxₙ + b(其中b是偏置项)

图中激活函数基于这个y_in值与阈值θ的比较来确定神经元输出。

样本出错

当感知机对某个训练样本的预测结果与实际目标输出不一致时,我们就说这个样本被"错误分类"或"出错"。图中的权重更新公式正是针对这种情况设计的:

w_i(new) = w_i(old) + α(t - f(y_in))x_i

其中α是学习率,控制权重更新的步长大小。

功能特点

这种激活函数的特点是:

  • 它是一个非线性函数,但只有三个可能的输出值
  • 在神经网络中用于模拟生物神经元的"全或无"特性
  • 将连续的输入空间划分为三个离散区域

这是神经网络中最基础的激活函数之一,虽然现代深度学习中更多使用sigmoid、ReLU等更平滑的激活函数,但阶跃函数在理解激活函数基本概念时仍然很有价值。

感知机(Perceptron)解析

这张图片展示的是感知机(Perceptron)在字母分类中的应用,我来解释您的问题:

wij中"1"的含义

在图中的公式 wij(new) = wij(old) + (tj - f(y_in))xi 中:

  • wij 代表从第i个输入神经元到第j个输出神经元的连接权重
  • 下标"1"表示第一个输出神经元(y₁)

从图中可以看到:

  • 右下角展示了神经网络结构:有63个输入(x₁-x₆₃)和7个输出(y₁-y₇)
  • wij中的"i"范围是1到63(输入单元数量)
  • wij中的"j"范围是1到7(输出单元数量)

所以,wij的"1"特指第一个输出神经元与各个输入神经元之间的连接权重。在这个字母分类应用中,系统需要区分7种不同的输出类别,而j=1就代表第一类输出。

这个感知机算法通过调整这些权重来学习如何正确分类不同字体的字母。

 

ADALINE与Perceptron(感知机)的区别

根据您分享的图片内容,我可以为您比较ADALINE(自适应线性神经元)与Perceptron(感知机)的主要区别:

主要区别

  1. 激活函数不同​:

    • ADALINE使用恒等函数作为激活函数,即输出等于加权和:f(y_in) = y_in
    • Perceptron通常使用阈值函数​(如阶跃函数),将线性组合转换为二元输出
  2. 权重更新规则​:

    • ADALINE使用最小均方误差(MSE)​作为学习准则,权重更新公式为:Δwij = α(tj - f(yinij))xij
    • Perceptron使用误分类点驱动的学习规则,当预测错误时才更新权重
  3. 输出性质​:

    • ADALINE可以产生连续值输出,不仅限于-1/+1
    • Perceptron通常只输出二元分类结果(如-1/+1)
  4. 应用范围​:

    • ADALINE可用于回归任务和分类任务
    • Perceptron主要用于二分类问题
  5. 训练目标​:

    • ADALINE最小化预测值与真实值之间的平方误差
    • Perceptron最小化分类错误率
  6. 收敛特性​:

    • ADALINE在训练数据线性可分时保证收敛
    • Perceptron也在数据线性可分时保证收敛,但学习过程可能不同

ADALINE可以看作是Perceptron的改进版本,通过引入均方误差作为损失函数,使其不仅适用于分类问题,也能应用于回归任务。

lide Lecture 11–39:BP 历史回顾(Historical Review)

原文

  • In 1986, the neural network and its training algorithm, back-propagation, are proposed. (D. E. Rumelhart et al., “Learning representations by back-propagating errors”, Nature, 1986)

  • In 1990, LeCun et al. proposed a back-propagation network for handwritten digit recognition. (LeCun et al., “Handwritten digit recognition with a back-propagation network”, NIPS 1990)

中译

  • 1986 年,Rumelhart 等人在《Nature》上首次提出神经网络及其训练算法 反向传播(Back-Propagation)

  • 1990 年,LeCun 等人在 NIPS 大会上展示了一个用于手写数字识别的 BP 网络。

解析

  • 里程碑意义:1986 的论文奠定了多层神经网络训练的通用方案;1990 年 LeCun 让 BP 真正落地到工业界(美国邮政手写数字分拣)。

  • 关键贡献:BP 打破了“只能训练单层感知机”的瓶颈,使得多层网络(隐藏层)能够有效学习。

Back-Propagation (BP) 概念

原文

  • Play a major role in the reemergence of ANNs as a tool to solve a wide range of problems;

  • BP also known as generalized delta rule;

  • A gradient descent method to minimize the total squared error of the output computed by the net.

(图示:左侧展示带隐藏层和输出层的多层全连接网络,右侧展示输入—隐藏—输出的矩阵化视图,以及箭头表示梯度流向)

中译

  • 反向传播在人工神经网络重新崛起中发挥了核心作用,成为解决众多问题的利器;

  • 也称为 广义 delta 规则

  • 本质是基于 梯度下降,最小化网络输出的总平方误差

解析

  1. 梯度流动:误差从输出层算出后,按链式法则“一层层往前”回传,得到每条连接的梯度。

  2. 统一框架:无论是感知机、ADALINE 还是深度网络,BP 给了它们一个共同的训练方法。

  3. 广泛适用:分类、回归、时序数据、强化学习等都可以套用这个梯度优化思想。

Slide Lecture 11–41:Training in BP(BP 训练流程)

原文

  • The aim is to train the net to achieve a balance between the ability to respond correctly to the input patterns that are used for training (memorization) and the ability to give reasonable (good) responses to input that is similar, but not identical, to that used.

  • The training using BP involves three stages:

    • Feed-forward of the input training pattern

    • Feed-back: Calculation & back-propagation of the associated error

    • Adjustment of the weights

(图示:左为多层网络箭头前后流向,右为误差参考条形图)

中译

  • 目标:在对训练模式做出准确响应(记忆)和对相似新模式做出合理泛化之间取得平衡。

  • BP 训练的三大步骤:

    1. 前向传播(Feed-forward):输入 → 网络 → 得到输出;

    2. 反向传播(Feed-back):计算输出误差 → 一层层回传求梯度;

    3. 权重调整(Adjustment):沿梯度方向微调所有连接权重。

解析

  • 泛化 vs 记忆:学习率、训练轮次、正则化等超参数决定网络更偏记忆还是更偏泛化;

  • 三步循环:每处理一个样本就完成一次完整的前三步,也可以批量(batch)或小批量(mini-batch)执行;

  • 收敛与稳定:合理设置学习率和网络大小,才能既快速收敛又不过拟合。

复习选择题

  1. 在反向传播算法中,为什么要“回传”误差(Feed-back)?
    A. 为了把输入数据倒序送回网络
    B. 为了计算每层权重对总误差的梯度
    C. 为了把输出结果发送给输入节点
    D. 为了在输出层插入额外的校正层

  2. BP 训练中“泛化能力”指的是什么?
    A. 对任意无关数据都能输出任意值
    B. 对与训练数据相似的输入也能给出合理输出
    C. 能记住所有训练样本的细节
    D. 在训练时不更新权重

答案

  1. B (反向传播阶段计算每条连接对整体误差的导数,即梯度)

  2. B (泛化是指对训练集外但分布相似的数据也能做出正确或合理的预测)

  1. 在ADALINE中,虽然目标是最终最小化整体的均方误差(MSE),但实际的权重更新是基于瞬时误差进行的。这是通过随机梯度下降(SGD)​小批量梯度下降实现的。

ADALINE中的梯度应用

在图片中的学习规则:
Δwij = α(tj - f(yinj))xij

这实际上是基于梯度的更新规则,其中:

  • (tj - f(yinj)) 是误差项
  • xij 是输入值
  • α 是学习率(控制步长大小)

这个公式本质上是梯度下降的简化形式。完整的梯度计算应该是:

Δwij = -α·∂E/∂wij

其中 ∂E/∂wij 是损失函数对权重wij的偏导数。

与普通系数的区别

这与你熟悉的"系数"概念有几点关键不同:

  1. 动态性​:梯度不是固定的,而是根据当前网络状态和训练数据动态计算的

  2. 自适应性​:梯度考虑了当前权重值和训练样本,自动调整每个权重的更新幅度

  3. 方向性​:梯度指向损失函数增加最快的方向,而我们要沿着相反方向移动以减小损失

  4. 系统性​:梯度考虑了所有训练样本的整体误差,而不仅是单个数据点

 【梯度下降】3D可视化讲解通俗易懂_哔哩哔哩_bilibili

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值