数字图像的获取是十分重要的一环,图像获取的形式与质量以及形式都会对我们后续的图像处理和理解有很大的影响。本节,我们从视觉传感器的成像原理出发学习数字图像的获取方法和数字图像的相关参数。本节学习所需要的前备知识都是较为简单的高中光学知识,易于理解。后面对图像的基本操作,需要具备一定的线性代数基础。
视觉传感器基础
我们知道,人眼观察世界的本质是对外界光信号的捕捉和解译,我们之所以可以看到某物体是因为该物体是可以反射或发出光的,所以视觉传感器捕捉数字图像的问题就转换为了光学传感器捕捉自然光的问题。
这里值得考究的一点是,空间中存在着各种各样的光,红外光,自然光,紫外光等等,光学传感器如何从如此多的光的空间中提取出来我们想要的自然光呢?(当然了,如果是红外相机,捕捉到的就是红外光)答案是相机响应函数。我们知道,不同的光的本质区别在于波长,也就是说只要我们相机对不同波长的光响应不一样即可!例如红光传感器,只对波长处于自然红光波长的射线响应较强,对于其他波长的射线响应弱。如果我们的传感器可以捕捉到所有波长的光,我们称其采集到的图像为高光谱图像。想要进一步了解的可以阅读文献[1],这是一个很有意思的东西。
根据捕捉到的射线不同,我们有了各种独特的视觉传感器,例如:高光谱图像,红外成像,RGB-D成像等等
小孔成像原理
如下图所示,根据光沿直线传播,物体在纸后呈倒立的实像,我们若将图中纸后的黑色板替换为光学传感器,则我们就可以捕捉到物体的光强度。
透镜成像
实际上,我们的人眼有晶状体结构,更接近的是透镜成像。
其成像特点在于:
两倍焦距以外呈倒立缩小的实像
一倍焦距到二倍焦距之间呈倒立放大的实像
一倍焦距以内呈正立放大的虚像
实像呈在与实物的异侧,虚像和实物在透镜的同侧。
传感器的工作流程
根据以上两种原理,我们可以把光传递至纸后或透镜之后,进一步地,数字相机就是依靠以上原理,通过光圈和快门控制从光学系统到达传感器的总能量(光圈越大,进入的光就越多,快门越快,传感器捕捉收集到的能量就越少),之后我们通过传感器将光学信号转换为数字电信号,再通过一系列的算法处理后得到我们常见的数字图像文件。
总的来说,完整的图像过程为: 光 -> 透镜 -> 光圈 -> 快门 -> 光敏探测器 -> psp图像收集卡
将相机的结构与人眼对应:
角膜和晶状体 ————>相机镜头
瞳孔————> 光圈
视网膜————>相机底片
视觉传感器的存在大大拓展了人类的视觉感知能力
相机参数
下面我们学习视觉传感器的相关参数,相机的参数对图像成像有一定的影响,熟悉摄影的同学一定不会陌生。
光圈大小
用于控制光线通过镜头进入相机机身内感光面光量的装置,光圈的大小对图像的景深有一定的影响,下面我们会提到。
衡量光圈大小我们使用的是f值,该值一般会标记在相机上。
f = 镜头焦距 / 镜头口径
故光圈越大,f值就愈小;f值越大,光圈越小。
快门速度
我们也称其为曝光时间,即传感器的曝光时间,快门速度直接控制了到达传感器的光量,决定了图像是欠曝光还是过曝光,通常我们需要较高的快门速度对应较小的动态模糊。
采样间距
成像芯片上相邻传感器单元的物理间隔
一般来说,小的采样间隔往往对应高的采样密度,也对应于更高的图像分辨率。
但这也可能使每个单元的面积过小导致光子采集少,敏感性低,更易受到噪声干扰。
填充率
活性传感器区域占理论传感区域的比例
通常,更高的填充率对应于更多的光和更小的成像畸变(这也很好理解,如果我们的填充率高,就可以对图像边缘处的光有更好的捕捉)
芯片尺寸
这里指的是成像芯片,一般工业相机的尺寸在于 0.25-0.5英寸,单反相机在35mm左右。
大尺寸的芯片优点在于每个成像单元的面积大,光敏性更好
缺点在于成本高,瑕疵也随面积增大线性增加
传感器噪声
由各种来源的噪声叠加而成,包含但不限于暗电流,放大器噪声,散粒噪声,固定样式的噪声。
图像相关参数
试想一下,我们拍了一张照片,除了美观和构图以外,我们会如何评价图像的好坏呢?分辨率?模糊?这些我们常常讨论的便是图像的相关参数,下面我们进一步学习。
景深
在摄像头或其他成像器前沿能够获得清晰图像的成像所测定的被摄物体前后距离范围,很显然这个清晰的范围越大,图像的每个部位就越清晰,景深也就越大。
我们前面提到光圈对景深的影响,光圈越大,景深越小,光圈越小,景深越大。对应于f值就是,f值越小,景深越小,如下图,很明显f1.2的景深小于f16的景深。
动态范围
数字相机同时记录的暗部细节和亮部细节的丰富范围
动态范围越高越能记录丰富的细节
分辨率
对地观测空间分辨率
图像上能够详细区分的最小单元的真实尺寸或大小
对地观测时间分辨率
对同一目标进行重复探测时,相邻两次探测的时间间隔
光谱分辨率
探测器在波长方向上的记录宽度,又称波段宽度(这一点我们在前面提到过,和高光谱图像有关)
数字图像的基本概念
首先,我们在这里重新声明一下数字图像的概念,尽管我们在上面已经提了很多,但大多数都是基于普通的视觉效果,在这里我们具体的对数字图像提出概念:投影在传感器平面上的总能量在空间、光谱、幅值等维度的离散化测量。注意关键词是离散,而不是连续,这也是数字信号和模拟信号的关键区别。离散的方式,我们称为量化。事实上,数字图像的形成需要同时进行空间、幅值、色彩多个维度的量化。
空间量化
数字图像含有像素值的多少
图像量化
成像区域
实际成像区域的大小
图像尺寸
图像的长和宽,也就是长多少个像素值,宽多少个像素值,我们常常所说的1080p,2k指的便是这个
空间分辨率
可分辨的最小细节尺寸,最小细节对应的实际尺寸越小,空间分辨率越高。
对于一个很大的成像区域,每个像素对应的实际尺寸越小,空间分辨率越高,视觉效果更清晰
幅值量化
即对像素值的幅值量化
二值化图像:幅值只有0和1
自然图像:幅值为0-255的整数,占8bit=1B
遥感图像:幅值可选个数通常为0-65536个,占16bit
色彩量化
高光谱图像可以获取从可见光到长波红外的精细光谱“指纹”
多光谱技术则是使用多个离散波长通道进行光谱检测和分析方法,通过选择性地测量几个特定波长地光信号以获取目标光谱的信息。
数字图像的基本操作
色彩空间
我们看到的世界是充满了色彩的,而色彩又是多种多样的,单是红色就分很多种红色(洋红、粉红等等),为了让计算机理解色彩,我们引入色彩空间的概念。人们用多维空间坐标表示色彩,这种坐标系统所定义的色彩范围我们成为色彩空间。色彩空间有很多种,以下我们简单介绍几种
RGB三原色色彩空间
RGB三基色很好地模拟了人眼的三种锥体细胞,三种锥体细胞分别对红、绿、蓝三种色彩有不同的感应。通过对三基色的混合,我们可以产生青色、黄色和品红等复杂的颜色。
对应于色彩空间,如下图所示。RGB三原色色彩空间为一个正方体,三个颜色归一化坐标的范围均为0~1,值越大越接近1,对应的颜色越深。例如,red轴越接近1,红色就越深。下图很好地呈现了三种颜色混合的外观,当坐标为(1,1,1)时,颜色为白色。当坐标为(0,0,0)时,颜色为黑色。
实际上,对于自然图像来说,RGB色彩空间是我们最常见的。一张自然图像通常包含RGB三个通道,每个通道对应于一个基色。单独对于一个像素来说,颜色是三个通道叠加的结果。如下图所示,(1,1)位置的颜色由三个值决定。
HSV空间
HSV空间的三个字母分别对应色调、饱和度以及亮度。与RGB色彩空间不同的是,HSV色彩空间的形状并不是正方体,而是柱体或者圆柱体。
H色调对应于12色相环,范围为0° ~ 360°,饱和度S的范围为0% ~ 100%,亮度V的范围为0% ~ 100%。下图为示意的色彩空间图:在这张图里,H代表了纵向切面与红色半径形成的圆心角,V为所在酸性横切面到圆锥顶点的距离,顶面为1,顶点处为0。S为所在圆形横切面点到圆心距离与该横切面圆的半径之间的比例。
CMYK色彩空间
C - 青色 M - 品红 Y - 黄色 K - 黑色
CMYK色彩空间的主要应用场景在于打印机。打印机在打印黑色时,使用的是碳和墨,而不是将三种染料混合,这样太浪费资源了。所以为了让打印机更方便地打印,我们设计了CMYK色彩空间。
XYZ色彩空间
由RGB色彩空间线性变换而来:
Lab色彩空间
L - 亮度 a - 从洋红到绿色地范围 b - 从黄色至蓝色的范围
数字图像的基本操作
在进行数字图像的操作之前,我们需要知道数字图像在计算机中存储的形式。
由于数字图像是二维的,所以理所应当的,我们可以用矩阵来存储一个图像,矩阵中各个元素的位置对应于空间的量化,各个元素的大小对应于幅值的量化,在上一小节中,我们提到了色彩的多种表现形式,多个维度的颜色对应于色彩的量化。如下图所示,这是RGB图像的一种表现形式:
本小节,我们主要学习平移、旋转、相似变换、仿射变换、透视变换五种图像的变换,如下图所示。这些变换大多数基于对图像2D点的空间位置变换,也就是对每个像素点的坐标进行变换,对图像的形状和位置产生了变换:
基本操作中的常见符号:
数字图像的平移
如以下公式所示,x表示一个2D点,t表示平移向量。
旋转
下图给出了较为详细的坐标轴旋转前后,P点的坐标变化。对于图像来说,我们希望的当然是点的旋转,而不是坐标轴的旋转。我们可以转换思路,下图呈现的是坐标轴的逆时针旋转,则根据相对法,我们可以看成P点在绕O点进行顺时针旋转,因此图中的公式可以变为P点顺时针旋转的公式。
平移+旋转
相似变换
相似变换实现的是图片的放缩
公式如下:s为放缩因子,用于控制图像的放缩
通过这种方式,像素的x,y坐标可以实现同等幅度的放大和缩小,当然了这样只是改变了图像像素点的分散度,没有改变图像像素点的总数量,无法提高分辨率。
仿射变换
仿射变换在相似变换的基础上,还可以实现图像的变形,但是这种变形不会影响原图像中线与线之间的平行关系(如下2图)。因为仿射变换的自由度更大,仿射变换对应于6个自由量,相似变换对应于4个自由量(θ,s,tx,ty)。
透视变换
透视变换的自由程度比仿射变换更大,可以将图像变换为任意形状,具有9个自由量。
其他2D变换
拉伸和挤压
双线性内插
双线性内插可以实现图像的放大和缩小,但是与上面提到的所不同的是,双线性内插产生了新的像素点。
参考文献
[1] 基于深度学习的高光谱图像光谱重建方法研究 DOI: 10.27389/d.cnki.gxadu.2023.000273