- 博客(196)
- 收藏
- 关注
原创 【CV】光流算法在大位移下失败
光流算法在大位移情况下失效的原因在于其依赖的泰勒展开近似存在局限性。传统方法通过局部梯度信息估计位移,但梯度图的有效范围仅局限于物体边缘附近。当位移过大时,新旧位置的差异超出梯度覆盖范围,导致算法无法匹配,最终误判为无位移。解决方案是采用更宽的梯度算子,如高斯模糊预处理,扩大梯度影响区域,使算法能够捕捉大范围位移。这一原理揭示了光流算法的位移估计能力与梯度算子有效范围的直接关联。
2025-09-07 17:08:26
456
原创 【CV】泰勒展开(Taylor expansion)在CV中:将两幅图片彼此叠加,以视为移动的过程
泰勒展开是一种用多项式逼近复杂函数的数学工具。其核心思想是通过函数在某点的各阶导数信息,构造一个多项式来局部近似该函数。低阶多项式提供粗略近似(如切线),随着阶数增加,逼近精度提高。泰勒展开在函数计算、极限求解、物理建模等领域有广泛应用,本质是通过叠加简单幂函数来"合成"复杂函数的局部行为。
2025-09-07 10:30:24
704
原创 【CV】二阶矩矩阵(Second Moment Matrix)
本文介绍了光流和图像匹配中的关键概念——二阶矩矩阵。该矩阵由图像梯度构造而成,能反映图像区域的纹理结构特征。通过特征值分解可判断区域类型:平坦区域(无法计算光流)、边缘区域(存在孔径问题)或角点区域(最适合计算光流)。在光流方程中,只有当矩阵的两个特征值都较大时,位移向量才能被稳定求解。文章用触摸物体的比喻直观说明了不同区域对运动感知的差异,强调该矩阵是连接图像梯度与运动信息的重要桥梁。
2025-09-05 22:22:55
599
原创 统计学在科学理论更新迭代中的作用
统计学是科学理论迭代的仲裁者和引擎,提供了处理不确定性、做出推理和决策的核心方法论。统计学老师未必在所有领域都“更懂逻辑”,但他们绝对是科学归纳逻辑、概率推理和不确定决策逻辑方面的专家。他们精通的那部分逻辑,恰恰是普通大众甚至其他学科科学家最容易出错的地方(比如误解p值、混淆相关与因果)。因此,一个好的统计学老师,传授的远不止是公式和计算,更是一套如何在不完美的世界中理性思考、避免自欺、并做出合理推断的思维框架。这套逻辑框架对于任何领域的科学工作者和理解科学的现代公民来说,都无比珍贵。
2025-09-05 16:54:36
731
原创 【CV】解光流估计 optical flow estimation
这页笔记描述的是Lucas-Kanade光流法目标: 通过最小化亮度差异E来找到运动d。方法: 利用导数找到最小值的必要条件(梯度为0)。挑战: 得到的方程是非线性的,难以直接求解。解决方案: 使用泰勒展开对图像进行线性近似,将一个复杂的非线性问题转化为一个相对简单的线性问题来求解。这个转化依赖于“运动很小”的假设。所以,“derivative”和“Taylor”是解决这个计算机视觉问题的两把关键数学钥匙。导数用于定义问题,泰勒展开用于简化并求解问题。
2025-09-05 13:28:05
1004
原创 【CV】光流估计optical_flow_estimation
这是什么: 这是最基础的光流或立体匹配的成本函数,称为“灰度不变性假设”或“亮度恒定约束”。它假设一个点在两幅图像中的亮度是不变的。为什么重要: 它是许多视觉算法(如跟踪、3D重建、视频稳定)的基础构建模块。严重局限性灰度不变假设很脆弱: 在现实中,光照变化、阴影、反射都会打破这个假设。局部模糊: 这个公式只考虑单个点。通常会在其基础上加入平滑性约束(认为相邻点的运动应该是相似的),形成更复杂的算法(如Lucas-Kanade光流法)。孔径问题: 在缺乏纹理的平坦区域,可能会找到多个d使得E。
2025-09-05 13:18:53
795
原创 肾阴虚怎么办?
老年女性“肾虚”往往以“肾阴虚兼精血不足”为核心,又常夹瘀、夹湿、夹虚热。补肾时,必须兼顾“滋阴填精、温阳化气、活血通络”,并注意骨质疏松、心血管、泌尿生殖等老年共病。下面把安全、循证、居家可行的 5 类做法整理成“一张表 + 一张方 + 一套操”,方便直接照做。一、先辨证——老年女性肾虚三大常见证型。
2025-08-29 12:33:42
401
原创 脾阳虚怎么办?
脾阳虚的调理需要综合饮食、生活习惯、中医调理等多方面进行,以下是一些常见的调理方法:饮食调理· 多吃温阳食物:可适当增加羊肉、牛肉、鸡肉、韭菜、生姜、核桃等温热性食物的摄入,这些食物能温中散寒,有助于改善脾阳虚症状。· 避免生冷食物:应避免食用冰淇淋、冷饮、生鱼片、西瓜、梨、黄瓜等生冷食物,以免损伤脾胃阳气。· 规律饮食:定时定量进食,避免暴饮暴食或过度节食,尽量保持三餐规律,每餐七八分饱即可。生活习惯调整· 注意保暖:尤其是腹部,避免受寒,尤其是在寒冷的季节或空调环境中,可适当增添衣物。
2025-08-28 20:31:40
525
原创 【CV】为什么拉普拉斯金字塔要更麻烦:先用高斯核改小,再拉伸回原样,再与原图相减?
摘要: 拉普拉斯金字塔采用"先缩小再放大"的复杂流程,是为了实现图像的无损分层分解。核心原理在于:1)通过高斯核模糊并下采样生成低分辨率图像;2)上采样回原尺寸后与原始图像相减,得到记录高频细节的拉普拉斯图像。这种方法的关键优势在于可逆性——通过存储最底层模糊图像和各层细节差异,能完美重建原始图像。相比之下,直接模糊会永久丢失高频信息(如边缘细节),因为卷积混合过程本质不可逆。拉普拉斯金字塔的层级结构既保留了图像主体信息,又精确记录了所有可丢弃的细节成分,为图像压缩和处理提供了理想的多尺
2025-08-26 21:08:42
751
原创 【CV】非极大值抑制(NMS)既然“每个像素”都参与比较,那么最终如何决出最大值?
全局 vs. 局部:NMS不做全局比较(例如“整张图里最大的100个值”)。它为每一个像素在其极小的、由梯度方向定义的局部上下文(仅2个邻居)中进行一次独立的比较。结果“在穿过我自身的边缘法线方向上,我是附近最强的那一个点”。最终效果:那些原本宽亮的边缘区域,其中大部分点都被抑制掉了,只留下了一条“脊线”(ridge line),这条线就是最终定位出的、细化的单像素边缘。所以,回答您的问题“怎么找最大?每个像素都在和自己最直接的两个邻居比大小。只要它不比任何一个邻居小,它就能存活。
2025-08-24 20:26:07
242
原创 【CV】非极大值抑制(NMS)必须同时用梯度幅值(Magnitude)和梯度方向(Direction)两个信息
基于梯度幅值计算出的“边缘”通常是一片很宽的、明亮的区域(多个像素宽),但我们想要的是边缘线。
2025-08-24 20:20:51
315
原创 【CV】为什么gradient angle热度图可以清晰地显示出不同的纹理,甚至显示相同颜色、人眼看不到但是存在的边缘?
为什么可以清晰地显示出不同的纹理,甚至显示相同颜色、人眼看不到但是存在的边缘?
2025-08-24 20:16:04
722
原创 【CV】为什么高斯filter是用来平滑的?从数学角度讲讲
Gσx12πσe−x22σ2Gσx2πσ1e−2σ2x2二维时则是Gσxy12πσ2e−x2y22σ2Gσxy2πσ21e−2σ2x2y2做滤波就是把信号/图像III与GσG_\sigmaGσI′xI∗Gσx∫−∞∞ItGσx−tdtI′xI∗Gσx∫−∞∞。
2025-08-24 19:52:51
996
原创 【CV】高斯平滑滤波器+差分滤波器=高斯平滑导数滤波器
原始图像 (img: 一块粗糙的原始木料,上面有我们想要的图案(边缘),但也有很多毛刺和瑕疵(噪声)。目标: 清晰地勾勒出图案的轮廓(找出边缘)。方法一(分步)先用砂纸 (G把整个木料打磨光滑(),去掉毛刺。再用铅笔和尺子 (dxdy在光滑的木料上描边(方法二(合并,您的代码)“自带砂纸的铅笔”。Gx= 把砂纸和画横线的铅笔绑在一起。Gy= 把砂纸和画竖线的铅笔绑在一起。直接用这个“自带砂纸的铅笔” (GxGy) 在原始粗糙的木料上描边(
2025-08-24 19:37:59
862
原创 【CV】non_maximum_suppression 在 Python 里有吗?
【代码】non_maximum_suppression 在 Python 里有吗?
2025-08-23 20:12:55
140
原创 【CV】边缘滞后 edge hysteresis
Edge hysteresis” 翻译成中文就是“边缘滞后”或“滞后阈值法”。下面用“三幕剧”的方式把它讲透。
2025-08-23 19:25:58
214
原创 【CV】Smoothed Derivative(平滑导数)
好的,我们来详细解释一下这个概念。它正是您提供的图中“Edge Detection, Step 1”所描述的核心操作。
2025-08-23 15:49:47
249
原创 Python: 空值、布尔、`==` 与 `is` 的区别
概念关键字/运算符含义示例空值None表示空或不存在的对象x = None逻辑非not对布尔值取反值相等==比较两个对象的值是否相等身份相等is比较两个对象是否是内存中的同一个逻辑与and短路与运算符逻辑或or短路或运算符您的理解非常到位,这些是编写正确且符合Python习语(Pythonic)的代码的基础。
2025-08-22 13:04:34
828
原创 伦理 | 生活中的电车难题:每天都在做的“艰难选择”
在生活的轨道上,有时候我们也像哲学家提出的电车难题中的司机一样,面对两条岔路,不知道该往哪边驶去。电车难题是什么?简单来说,一列失控的电车向前飞驰,前方铁轨上有五个人,如果不做任何选择,他们就会被撞死。但是你可以拉动一根闸,让电车转向另一条轨道,只有一个人,只有他(她)会死。在这个瞬间,这六个人的命运交到了你的手里。你会拉闸吗?你会选择牺牲一个人救下五个人吗?还是坚持原则,不主动伤害那一个人,哪怕五个人就此失去生命?这是一个关于两种思路的选择:一种是让悲剧最小化,牺牲一个挽救更多生命;
2025-08-19 16:39:42
592
原创 医疗数据|DICOM和HL7标准
本文介绍了医学影像和医疗信息系统的两大国际标准:DICOM和HL7。DICOM是医学数字成像和通信标准,规范了医学图像的格式和传输方式,使不同厂商的设备能互通。一个DICOM文件包含图像和丰富的元数据(如病人信息、检查参数等),其头部(Header)采用标签化结构存储这些信息。DICOM还定义了事务处理机制(如C-STORE、C-FIND等)来实现影像数据的传输与查询。HL7则是医疗信息系统间的数据交换标准,特别是HL7 v2以其紧凑的文本格式成为医院系统间"翻译官",确保HIS、LIS
2025-08-19 16:35:57
794
原创 揭秘Transformer:自然语言处理的终极武器!(1)
《Transformer架构解析:从自注意力到多头注意力》摘要:本文系统介绍了Transformer这一革命性神经网络架构。文章首先指出传统RNN的并行训练困难和长距离记忆问题,引出完全基于注意力机制的Transformer解决方案。重点解析了Transformer的核心组件:自注意力机制通过Query、Key、Value三向量计算词间关注度;多头注意力则从不同角度并行理解上下文;位置编码解决顺序信息缺失问题。文章还以图书馆找书为例形象说明注意力机制原理,并简要介绍训练过程。最后提及Transformer在
2025-08-19 16:32:44
784
原创 重磅 | 精选计算机工具网站分享
本文推荐了多个实用的计算机工具网站,涵盖思维导图、代码编辑、数据科学、数学计算、项目管理等不同领域。包括MindMup流程图工具、LeetCode编程练习平台、Kaggle数据科学社区、Google Meet视频会议等实用资源。同时还提供了一些在线学习平台和学习资料,如Coursera、网易云课堂等。这些工具能有效提升学习、工作和研究效率,建议收藏备用。
2025-08-19 16:27:56
842
原创 计算机视觉入门:从像素矩阵到图像理解
简而言之,计算机视觉的入门,就是从“看到”像素点,到“理解”矩阵运算,最终用 NumPy 这个工具,将图像这个复杂对象,转化为可供机器处理的数学语言。计算机视觉(Computer Vision)的本质,就是让机器“看到”世界,而这个“看到”的过程,是对。一旦图像被表示为 NumPy 矩阵,所有复杂的视觉任务,都可以归结为对这个矩阵的数学运算。,即对图像矩阵和**卷积核(Kernel)**矩阵进行逐元素的乘积和求和运算。在计算机中,一张图片,无论它看起来多么生动,本质上都是一个巨大的。(用 NumPy 的。
2025-08-18 11:03:13
701
原创 仔细讲解C语言中的星号
彻底拆开,其实只有两大类、四种典型场景。背住这张“地图”,以后看到任何带。(它不占运行期内存,只是给编译器看的标签。(真正在运行期干活:读/写地址里的对象。四、一张图把“声明”和“使用”对照看懂。把这句拆开成三层,逐层看就懂了。的代码都能秒判它在干什么。只是“类型修饰符”,读作。三、容易混淆的“双胞胎”符号。看到实际输出,就能彻底明白。指针数组 vs. 数组指针。这个地址,指向字符串。运行结果(假设命令行是。
2025-08-14 17:49:16
392
原创 C: 写一个函数 `strcmp(s, t)`,按字典序比较两个字符串
本文介绍了C语言中字符串比较函数strcmp的实现原理。该函数通过逐字符比较两个字符串,当遇到首个不匹配字符时返回它们的ASCII差值:若s<t返回负数,s>t返回正数,完全相同则返回0。 文章详细解析了函数声明int strcmp(const char *s, const char *t)的含义: char *表示字符指针,存储字符串首地址而非字符串本身 const保证函数不会修改原字符串 形参无论写成char *s还是char s[]都表示接收地址 通过示例说明了指针操作:*s获取字符内容,
2025-08-14 17:37:33
502
原创 softmax是什么?与 sigmoid 和 logistic regression 有什么关系?
本文介绍了Logistic回归和Softmax函数在分类问题中的应用。Logistic回归通过Sigmoid函数将线性输出转换为0-1概率,适用于二元分类。而Softmax是其多类别推广,能将向量转换为概率分布,使各输出值总和为1。文章通过手写数字识别示例,展示了Softmax如何将原始得分转化为直观概率,帮助确定最可能类别。Softmax在深度学习分类任务中发挥关键作用,使模型输出更易解释。
2025-08-14 16:50:37
899
原创 科技与健康的未来:在便利与福祉之间的平衡
在数字化浪潮席卷全球的今天,科技正以前所未有的速度重塑人类的生活方式。从清晨唤醒我们的智能闹钟,到深夜仍在闪烁的短视频屏幕,科技产品已深度融入日常生活的每个角落。然而,这种深度融合也带来了深刻的矛盾:一方面,科技承诺解放人类生产力、提升生活品质;另一方面,它又可能侵蚀我们的健康、掠夺我们的注意力、甚至威胁个人隐私。本文将从视觉健康保护、思维自主权维护、劳动力优化以及隐私安全四个维度,探讨未来科技如何真正服务于人的健康福祉,而非成为奴役人类的新工具。
2025-05-22 11:41:04
801
原创 数字时代的透明人
而今,我们的行踪被地图记录,我们的社交被软件安排,我们的情感被表情包量化。友人夸赞其聪慧,能知天气,能放音乐,能讲故事,甚至能在他进门时道一声"辛苦了"。而今我们的数据——那些最私密的念头、最隐蔽的行为——却如同泼向虚空的水,不知落往何处,亦不知被何人接住。在算法的眼中,我们不过是一串行为模式的集合:A型消费者,B型患者,C型选民。我们举报邻居的言论,我们评分商家的服务,我们上传朋友的丑照。我们的隐私如同盛夏的冰块,在数据的炙烤下无声消融,最终只剩一滩水渍,被那些算法舔舐干净。隐私的消亡是缓慢的。
2025-05-20 22:51:19
726
原创 数字世界的筑梦者:论大数据时代程序员的数学修养
夜深了,小张合上《统计学习方法》,屏幕上的代码已经重构。他不再盲目调整参数,而是先分析数据分布,检查特征相关性,选择合适的距离度量。准确率开始稳步提升。老王说得对,在大数据时代,优秀的程序员必须是数学家、统计学家和计算机科学家的三位一体。雨停了,月光透过云层,在代码上投下斑驳的影子。那些符号与公式,那些定理与算法,都是程序员理解世界的语言。在这个由数据编织的时代,数学不是选修课,而是程序员的母语;统计不是工具包,而是程序员的思维方式。
2025-05-20 22:49:07
653
原创 数据库管理:数据世界的交通警察
数据库管理就像是在维护一个永远在生长的城市。数据是市民,表是建筑,关系是道路,索引是路标,事务是交通规则。一个好的数据库管理员,既是城市规划师,又是交通警察,还是急救医生。记住,数据库不是越复杂越好,而是越适合业务需求越好。就像城市不是高楼越多越好,而是要让市民生活便利。希望这篇文章能帮你理解数据库管理的基本概念,下次听到"DBA"这个词时,你知道他们不只是"管数据库的",而是数据世界的建筑师和守护者。
2025-05-20 22:45:57
634
原创 伦理|法律与科技:一场永不停歇的追逐赛(法学家的不同观点)
不同法学家给我们提供了多种视角:奥斯丁提醒我们法律是权威意志的体现,霍姆斯告诫我们要考虑现实经验,庞德号召我们把法律作为改善社会的工具,富勒则强调法律立法的“良心”与正当程序,哈特告诉我们关注法律需要被社会成员所接受
2025-05-17 15:12:14
522
原创 仅编码器,仅解码器任务对比
解码器根据源语言的上下文(通常是编码器的输出)逐步生成目标语言的文本。• 输入数据通常是一个序列(如文本、音频、图像等),编码器将其转换为固定长度的上下文表示(embedding)。编码器处理整个文档,生成一个固定长度的表示,用于后续摘要生成。• 文本生成:生成连贯的文本(如故事、诗歌、文章等)。• 文本嵌入生成:将文本转换为密集向量表示,用于下游任务(如相似性搜索、聚类等)。• 对话系统(回复生成):生成对话中的回复。• 解码器逐步生成输出序列,每一步的输出会作为下一步的输入,以保持连贯性。
2025-05-16 23:01:45
319
原创 成分句法分析vs.依存句法分析constituency parsing vs dependency parsing
句法分析(Parsing)是自然语言处理中的一个重要任务,旨在分析句子的结构和语法关系。句法分析主要有两种方法:成分句法分析(Constituency Parsing)和依存句法分析(Dependency Parsing)。它们在目标、方法和应用场景上都有显著的区别。
2025-05-16 22:37:33
705
原创 医疗数据|DICOM和HL7标准
DICOM(医学数字成像和通信标准)是医学影像领域的国际标准,规范了医学图像的格式和传输方式,确保不同设备和系统之间的兼容性。HL7(健康信息七层协议)则是医疗信息系统之间交换数据的国际标准协议,确保医院内不同系统如HIS、LIS、RIS、EMR等能够顺畅交换数据。
2025-05-16 15:05:18
1184
原创 Transformer(2):小白也能懂的编码器-解码器Encoder-decoder
Transformer的编码器-解码器(Encoder-Decoder)架构是一种广泛应用于机器翻译、图像描述生成、语音识别等任务的结构。编码器负责将输入内容压缩成机器能理解的上下文向量,解码器则根据这个向量逐字生成输出。Transformer架构包括仅编码器、仅解码器和编码器-解码器三种形式,分别适用于不同的任务。
2025-05-16 14:34:51
1140
原创 Transformer介绍,一文搞懂transformer!
Transformer是一种基于注意力机制的神经网络架构,专为处理序列数据设计,克服了RNN和LSTM在并行训练和长距离记忆方面的不足。它通过自注意力机制使模型能够同时关注序列中的多个元素,从而实现高效的并行处理。Transformer的核心组件包括线性层、前馈网络和自注意力层,以及残差连接和层规范化,这些组件共同构成了Transformer块。
2025-05-16 14:26:59
756
原创 C语言Static存储类
• 初始化:静态局部变量在第一次进入函数时初始化一次,之后再次进入函数时,变量的值是上次函数调用结束时的值。• 作用域:静态全局变量的作用域被限制在定义它的文件内,其他文件无法访问它。• 存储方式:静态局部变量存储在程序的静态存储区(而非栈区),因此它在程序的整个运行期间都存在。• 生命周期:静态全局变量的生命周期与程序的运行周期相同,程序启动时初始化,程序结束时销毁。• 静态局部变量:存储在静态存储区,生命周期长,作用域在函数内。• 静态全局变量:存储在静态存储区,生命周期长,作用域在文件内。
2025-04-27 11:51:58
481
原创 国内运行Jupyter_Notebook的平台
以下是一些国内可以运行类似 Google Colab 的 Jupyter Notebook 平台:未经尝试,先码。
2025-03-17 12:01:07
1538
原创 Attention
注意力机制(Attention Mechanism)是一种让模型在处理输入数据时,能够动态地关注输入中的技术。它通过计算输入元素之间的,来决定每个元素对当前任务的重要性。这种机制广泛应用于自然语言处理(NLP)、计算机视觉等领域。
2025-02-15 12:16:22
391
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人