图像分析学习笔记（7）：图像生成

Ro Jace

已于 2025-07-20 17:11:46 修改

阅读量897

点赞数 19

CC 4.0 BY-SA版权

分类专栏：学习笔记文章标签：笔记计算机视觉

于 2025-07-19 11:17:12 首次发布

自然图像的流形

线性降维：3D->2D，与一维情况类似，将数据拟合到平面，并转换坐标系，使平面成为 x-y 平面平面拟合（“Plane fitting”）只需要为每个点（和平面参数）存储两个数字更一般地说：寻找最适合数据的 2D 子空间，并忽略其余维度
主成分分析：根据数据沿每个轴的变化程度来查找正交轴并对其进行排序。
自编码器：编码器（Encoder）：将非线性（深度网络）变换为低维空间解码器（Decoder）：低维空间到原始内容的转换损失函数约束输入和输出之间的差异无监督-无需标签自动编码器试图学习某个流形上的可逆变换
所有图像空间：大多数图像都是“噪点” “有意义”的图像倾向于在所有图像的空间内形成一些流形特定类的图像落在该流形内的流形上
零空间：自动编码器试图针对某些流形上的数据实现可逆的降维，同时使得大多数噪声位于图像空间的不可逆部分（流形外）

GANs(Generative Adversarial Networks)
- 生成器网络的结构与自编码器的解码器相似
- 以对抗性的方式训练对抗鉴别器网络
Conditional GANs
- 从条件分布生成样本
- 生成器G 试图合成假图像来欺骗鉴别器D
- 鉴别器D 试图辨别其中假的图片
- 生成器G 试图合成假图像来欺骗鉴别器D: $\max E _ { x , y } \left[ \log D ( G ( x ) ) + \log ( 1 - D ( y ) ) \right]$