学好statistics和DS-CSDN博客

原创【CV】光流算法在大位移下失败

光流算法在大位移情况下失效的原因在于其依赖的泰勒展开近似存在局限性。传统方法通过局部梯度信息估计位移，但梯度图的有效范围仅局限于物体边缘附近。当位移过大时，新旧位置的差异超出梯度覆盖范围，导致算法无法匹配，最终误判为无位移。解决方案是采用更宽的梯度算子，如高斯模糊预处理，扩大梯度影响区域，使算法能够捕捉大范围位移。这一原理揭示了光流算法的位移估计能力与梯度算子有效范围的直接关联。

2025-09-07 17:08:26 456

原创【CV】泰勒展开（Taylor expansion）在CV中：将两幅图片彼此叠加，以视为移动的过程

泰勒展开是一种用多项式逼近复杂函数的数学工具。其核心思想是通过函数在某点的各阶导数信息，构造一个多项式来局部近似该函数。低阶多项式提供粗略近似（如切线），随着阶数增加，逼近精度提高。泰勒展开在函数计算、极限求解、物理建模等领域有广泛应用，本质是通过叠加简单幂函数来"合成"复杂函数的局部行为。

2025-09-07 10:30:24 704

原创【CV】二阶矩矩阵（Second Moment Matrix）

本文介绍了光流和图像匹配中的关键概念——二阶矩矩阵。该矩阵由图像梯度构造而成，能反映图像区域的纹理结构特征。通过特征值分解可判断区域类型：平坦区域（无法计算光流）、边缘区域（存在孔径问题）或角点区域（最适合计算光流）。在光流方程中，只有当矩阵的两个特征值都较大时，位移向量才能被稳定求解。文章用触摸物体的比喻直观说明了不同区域对运动感知的差异，强调该矩阵是连接图像梯度与运动信息的重要桥梁。

2025-09-05 22:22:55 599

统计学是科学理论迭代的仲裁者和引擎，提供了处理不确定性、做出推理和决策的核心方法论。统计学老师未必在所有领域都“更懂逻辑”，但他们绝对是科学归纳逻辑、概率推理和不确定决策逻辑方面的专家。他们精通的那部分逻辑，恰恰是普通大众甚至其他学科科学家最容易出错的地方（比如误解p值、混淆相关与因果）。因此，一个好的统计学老师，传授的远不止是公式和计算，更是一套如何在不完美的世界中理性思考、避免自欺、并做出合理推断的思维框架。这套逻辑框架对于任何领域的科学工作者和理解科学的现代公民来说，都无比珍贵。

2025-09-05 16:54:36 731

原创【CV】解光流估计 optical flow estimation

这页笔记描述的是Lucas-Kanade光流法目标：通过最小化亮度差异E来找到运动d。方法：利用导数找到最小值的必要条件（梯度为0）。挑战：得到的方程是非线性的，难以直接求解。解决方案：使用泰勒展开对图像进行线性近似，将一个复杂的非线性问题转化为一个相对简单的线性问题来求解。这个转化依赖于“运动很小”的假设。所以，“derivative”和“Taylor”是解决这个计算机视觉问题的两把关键数学钥匙。导数用于定义问题，泰勒展开用于简化并求解问题。

2025-09-05 13:28:05 1004

原创【CV】光流估计optical_flow_estimation

这是什么：这是最基础的光流或立体匹配的成本函数，称为“灰度不变性假设”或“亮度恒定约束”。它假设一个点在两幅图像中的亮度是不变的。为什么重要：它是许多视觉算法（如跟踪、3D重建、视频稳定）的基础构建模块。严重局限性灰度不变假设很脆弱：在现实中，光照变化、阴影、反射都会打破这个假设。局部模糊：这个公式只考虑单个点。通常会在其基础上加入平滑性约束（认为相邻点的运动应该是相似的），形成更复杂的算法（如Lucas-Kanade光流法）。孔径问题：在缺乏纹理的平坦区域，可能会找到多个d使得E。

2025-09-05 13:18:53 795

原创肾阴虚怎么办？

老年女性“肾虚”往往以“肾阴虚兼精血不足”为核心，又常夹瘀、夹湿、夹虚热。补肾时，必须兼顾“滋阴填精、温阳化气、活血通络”，并注意骨质疏松、心血管、泌尿生殖等老年共病。下面把安全、循证、居家可行的 5 类做法整理成“一张表 + 一张方 + 一套操”，方便直接照做。一、先辨证——老年女性肾虚三大常见证型。

2025-08-29 12:33:42 401

原创脾阳虚怎么办？

脾阳虚的调理需要综合饮食、生活习惯、中医调理等多方面进行，以下是一些常见的调理方法：饮食调理· 多吃温阳食物：可适当增加羊肉、牛肉、鸡肉、韭菜、生姜、核桃等温热性食物的摄入，这些食物能温中散寒，有助于改善脾阳虚症状。· 避免生冷食物：应避免食用冰淇淋、冷饮、生鱼片、西瓜、梨、黄瓜等生冷食物，以免损伤脾胃阳气。· 规律饮食：定时定量进食，避免暴饮暴食或过度节食，尽量保持三餐规律，每餐七八分饱即可。生活习惯调整· 注意保暖：尤其是腹部，避免受寒，尤其是在寒冷的季节或空调环境中，可适当增添衣物。

2025-08-28 20:31:40 525

原创【CV】为什么拉普拉斯金字塔要更麻烦：先用高斯核改小，再拉伸回原样，再与原图相减？

摘要：拉普拉斯金字塔采用"先缩小再放大"的复杂流程，是为了实现图像的无损分层分解。核心原理在于：1）通过高斯核模糊并下采样生成低分辨率图像；2）上采样回原尺寸后与原始图像相减，得到记录高频细节的拉普拉斯图像。这种方法的关键优势在于可逆性——通过存储最底层模糊图像和各层细节差异，能完美重建原始图像。相比之下，直接模糊会永久丢失高频信息（如边缘细节），因为卷积混合过程本质不可逆。拉普拉斯金字塔的层级结构既保留了图像主体信息，又精确记录了所有可丢弃的细节成分，为图像压缩和处理提供了理想的多尺

2025-08-26 21:08:42 751

原创【CV】非极大值抑制（NMS）既然“每个像素”都参与比较，那么最终如何决出最大值？

全局 vs. 局部：NMS不做全局比较（例如“整张图里最大的100个值”）。它为每一个像素在其极小的、由梯度方向定义的局部上下文（仅2个邻居）中进行一次独立的比较。结果“在穿过我自身的边缘法线方向上，我是附近最强的那一个点”。最终效果：那些原本宽亮的边缘区域，其中大部分点都被抑制掉了，只留下了一条“脊线”（ridge line），这条线就是最终定位出的、细化的单像素边缘。所以，回答您的问题“怎么找最大？每个像素都在和自己最直接的两个邻居比大小。只要它不比任何一个邻居小，它就能存活。

2025-08-24 20:26:07 242

原创【CV】非极大值抑制（NMS）必须同时用梯度幅值（Magnitude）和梯度方向（Direction）两个信息

基于梯度幅值计算出的“边缘”通常是一片很宽的、明亮的区域（多个像素宽），但我们想要的是边缘线。

2025-08-24 20:20:51 315

原创【CV】为什么gradient angle热度图可以清晰地显示出不同的纹理，甚至显示相同颜色、人眼看不到但是存在的边缘？

为什么可以清晰地显示出不同的纹理，甚至显示相同颜色、人眼看不到但是存在的边缘？

2025-08-24 20:16:04 722

原创【CV】为什么高斯filter是用来平滑的？从数学角度讲讲

Gσx12πσe−x22σ2Gσx2πσ1e−2σ2x2二维时则是Gσxy12πσ2e−x2y22σ2Gσxy2πσ21e−2σ2x2y2做滤波就是把信号/图像III与GσG_\sigmaGσI′xI∗Gσx∫−∞∞ItGσx−tdtI′xI∗Gσx∫−∞∞。

2025-08-24 19:52:51 996

原创【CV】高斯平滑滤波器+差分滤波器=高斯平滑导数滤波器

原始图像 (img：一块粗糙的原始木料，上面有我们想要的图案（边缘），但也有很多毛刺和瑕疵（噪声）。目标：清晰地勾勒出图案的轮廓（找出边缘）。方法一（分步）先用砂纸 (G把整个木料打磨光滑（），去掉毛刺。再用铅笔和尺子 (dxdy在光滑的木料上描边（方法二（合并，您的代码）“自带砂纸的铅笔”。Gx= 把砂纸和画横线的铅笔绑在一起。Gy= 把砂纸和画竖线的铅笔绑在一起。直接用这个“自带砂纸的铅笔” (GxGy) 在原始粗糙的木料上描边（

2025-08-24 19:37:59 862

原创【CV】non_maximum_suppression 在 Python 里有吗？

【代码】non_maximum_suppression 在 Python 里有吗？

2025-08-23 20:12:55 140

原创【CV】边缘滞后 edge hysteresis

Edge hysteresis” 翻译成中文就是“边缘滞后”或“滞后阈值法”。下面用“三幕剧”的方式把它讲透。

2025-08-23 19:25:58 214

原创【CV】Smoothed Derivative（平滑导数）

好的，我们来详细解释一下这个概念。它正是您提供的图中“Edge Detection, Step 1”所描述的核心操作。

2025-08-23 15:49:47 249

原创 Python: 空值、布尔、`==` 与 `is` 的区别

概念关键字/运算符含义示例空值None表示空或不存在的对象x = None逻辑非not对布尔值取反值相等==比较两个对象的值是否相等身份相等is比较两个对象是否是内存中的同一个逻辑与and短路与运算符逻辑或or短路或运算符您的理解非常到位，这些是编写正确且符合Python习语（Pythonic）的代码的基础。

2025-08-22 13:04:34 828

原创伦理 | 生活中的电车难题：每天都在做的“艰难选择”

在生活的轨道上，有时候我们也像哲学家提出的电车难题中的司机一样，面对两条岔路，不知道该往哪边驶去。电车难题是什么？简单来说，一列失控的电车向前飞驰，前方铁轨上有五个人，如果不做任何选择，他们就会被撞死。但是你可以拉动一根闸，让电车转向另一条轨道，只有一个人，只有他（她）会死。在这个瞬间，这六个人的命运交到了你的手里。你会拉闸吗？你会选择牺牲一个人救下五个人吗？还是坚持原则，不主动伤害那一个人，哪怕五个人就此失去生命？这是一个关于两种思路的选择：一种是让悲剧最小化，牺牲一个挽救更多生命；

2025-08-19 16:39:42 592

原创医疗数据|DICOM和HL7标准

本文介绍了医学影像和医疗信息系统的两大国际标准：DICOM和HL7。DICOM是医学数字成像和通信标准，规范了医学图像的格式和传输方式，使不同厂商的设备能互通。一个DICOM文件包含图像和丰富的元数据（如病人信息、检查参数等），其头部（Header）采用标签化结构存储这些信息。DICOM还定义了事务处理机制（如C-STORE、C-FIND等）来实现影像数据的传输与查询。HL7则是医疗信息系统间的数据交换标准，特别是HL7 v2以其紧凑的文本格式成为医院系统间"翻译官"，确保HIS、LIS

2025-08-19 16:35:57 794

原创揭秘Transformer：自然语言处理的终极武器！(1)

《Transformer架构解析：从自注意力到多头注意力》摘要：本文系统介绍了Transformer这一革命性神经网络架构。文章首先指出传统RNN的并行训练困难和长距离记忆问题，引出完全基于注意力机制的Transformer解决方案。重点解析了Transformer的核心组件：自注意力机制通过Query、Key、Value三向量计算词间关注度；多头注意力则从不同角度并行理解上下文；位置编码解决顺序信息缺失问题。文章还以图书馆找书为例形象说明注意力机制原理，并简要介绍训练过程。最后提及Transformer在

2025-08-19 16:32:44 784

原创重磅 | 精选计算机工具网站分享

本文推荐了多个实用的计算机工具网站，涵盖思维导图、代码编辑、数据科学、数学计算、项目管理等不同领域。包括MindMup流程图工具、LeetCode编程练习平台、Kaggle数据科学社区、Google Meet视频会议等实用资源。同时还提供了一些在线学习平台和学习资料，如Coursera、网易云课堂等。这些工具能有效提升学习、工作和研究效率，建议收藏备用。

2025-08-19 16:27:56 842

原创计算机视觉入门：从像素矩阵到图像理解

简而言之，计算机视觉的入门，就是从“看到”像素点，到“理解”矩阵运算，最终用 NumPy 这个工具，将图像这个复杂对象，转化为可供机器处理的数学语言。计算机视觉（Computer Vision）的本质，就是让机器“看到”世界，而这个“看到”的过程，是对。一旦图像被表示为 NumPy 矩阵，所有复杂的视觉任务，都可以归结为对这个矩阵的数学运算。，即对图像矩阵和**卷积核（Kernel）**矩阵进行逐元素的乘积和求和运算。在计算机中，一张图片，无论它看起来多么生动，本质上都是一个巨大的。（用 NumPy 的。

2025-08-18 11:03:13 701

原创 z-lib

B站某人：自己用必应搜索“z-libxxxx”，可以找到的。

2025-08-14 21:02:24 106

原创仔细讲解C语言中的星号

彻底拆开，其实只有两大类、四种典型场景。背住这张“地图”，以后看到任何带。（它不占运行期内存，只是给编译器看的标签。（真正在运行期干活：读/写地址里的对象。四、一张图把“声明”和“使用”对照看懂。把这句拆开成三层，逐层看就懂了。的代码都能秒判它在干什么。只是“类型修饰符”，读作。三、容易混淆的“双胞胎”符号。看到实际输出，就能彻底明白。指针数组 vs. 数组指针。这个地址，指向字符串。运行结果（假设命令行是。

2025-08-14 17:49:16 392

原创 C: 写一个函数 `strcmp(s, t)`，按字典序比较两个字符串

本文介绍了C语言中字符串比较函数strcmp的实现原理。该函数通过逐字符比较两个字符串，当遇到首个不匹配字符时返回它们的ASCII差值：若s<t返回负数，s>t返回正数，完全相同则返回0。文章详细解析了函数声明int strcmp(const char *s, const char *t)的含义： char *表示字符指针，存储字符串首地址而非字符串本身 const保证函数不会修改原字符串形参无论写成char *s还是char s[]都表示接收地址通过示例说明了指针操作：*s获取字符内容，

2025-08-14 17:37:33 502

原创 softmax是什么？与 sigmoid 和 logistic regression 有什么关系？

本文介绍了Logistic回归和Softmax函数在分类问题中的应用。Logistic回归通过Sigmoid函数将线性输出转换为0-1概率，适用于二元分类。而Softmax是其多类别推广，能将向量转换为概率分布，使各输出值总和为1。文章通过手写数字识别示例，展示了Softmax如何将原始得分转化为直观概率，帮助确定最可能类别。Softmax在深度学习分类任务中发挥关键作用，使模型输出更易解释。

2025-08-14 16:50:37 899

原创科技与健康的未来：在便利与福祉之间的平衡

在数字化浪潮席卷全球的今天，科技正以前所未有的速度重塑人类的生活方式。从清晨唤醒我们的智能闹钟，到深夜仍在闪烁的短视频屏幕，科技产品已深度融入日常生活的每个角落。然而，这种深度融合也带来了深刻的矛盾：一方面，科技承诺解放人类生产力、提升生活品质；另一方面，它又可能侵蚀我们的健康、掠夺我们的注意力、甚至威胁个人隐私。本文将从视觉健康保护、思维自主权维护、劳动力优化以及隐私安全四个维度，探讨未来科技如何真正服务于人的健康福祉，而非成为奴役人类的新工具。

2025-05-22 11:41:04 801

原创数字时代的透明人

而今，我们的行踪被地图记录，我们的社交被软件安排，我们的情感被表情包量化。友人夸赞其聪慧，能知天气，能放音乐，能讲故事，甚至能在他进门时道一声"辛苦了"。而今我们的数据——那些最私密的念头、最隐蔽的行为——却如同泼向虚空的水，不知落往何处，亦不知被何人接住。在算法的眼中，我们不过是一串行为模式的集合：A型消费者，B型患者，C型选民。我们举报邻居的言论，我们评分商家的服务，我们上传朋友的丑照。我们的隐私如同盛夏的冰块，在数据的炙烤下无声消融，最终只剩一滩水渍，被那些算法舔舐干净。隐私的消亡是缓慢的。

2025-05-20 22:51:19 726

空空如也

空空如也