旷世：高效准确的文字检测

最新推荐文章于 2022-02-25 14:42:10 发布

进击的煎饼果子

最新推荐文章于 2022-02-25 14:42:10 发布

阅读量540

点赞数

CC 4.0 BY-SA版权

分类专栏：目标检测深度学习论文翻译笔记文章标签：人工智能机器学习文字检测

本文链接：https://blog.csdn.net/u012925946/article/details/104563581

深度学习同时被 3 个专栏收录

41 篇文章

订阅专栏

论文翻译笔记

26 篇文章

订阅专栏

目标检测

9 篇文章

订阅专栏

EAST文字检测网络

可以以很小的计算量，加在其他backbone之后改善检测效果
主讲人赵明明在这里插入图片描述
具体，性能和准确率

fscore 0.757 , fps 16.8 ,
PVANet fps 16.8
channel乘以2倍，fps13.2

在这里插入图片描述
FCN+NMS

在这里插入图片描述
EAST 详细 pipelline

feature merging

在这里插入图片描述
conv stage 包括conv pooling等、
多层特征的融合，有小目标和大目标

在这里插入图片描述
假设
score map 上的[i][j]=1
Sx1 map[i][j] = -3
Sx2 map[i][j] = -2
Sx3 map[i][j] = 6

从 score map上位置按照Sx1 , Sx2分别向xy移动，得到一个顶点
图中是4个feature map ，一共9个
图上每个图都取[i][j]位置，代表一个框
第一个是置信度，另外八个点是位移大小
以当前点[i][j]为基准

在这里插入图片描述

局部感知NMS

直接NMS计算量太大，所以先局部合并，降低框的个数，最后再用标准NMS
在这里插入图片描述
整张图m/4 , n/4 , 每个点代表一个四边形
先看前两个四边形IOU 若>0.5 则合并
方法：加权融合（而不是NMS那种舍弃一个）
S x B1 + S x B2 （比较稳定而不会抖动）
前两个框和第三个框做同样步骤，看IOU
新框Score = S1+S2，有可能大于1
四个坐标分别计算
细节：1,2融合，3没有融合，4的时候不和1,2计算了

标准NMS

standard NMS

Loss function

L = Ls + λ Lg
score map loss , geometry map loss(那八个偏移部分的loss),
λ 默认1
LS是交叉熵loss
Y星为0时，就是后面部分
Y星为1时就是前面部分
β是类平衡因子，Y星是score map ， m/4,n/4大小的图片
大概是0.9，因为负例部分多

正例比重乘到负例loss
负例乘到正例loss
这是类平衡交叉熵loss

loss for Geometry

由于有两个min的操作，因而与标注顺序无关
通过最小边来优化（选定最小边是人工指定的一个边）

Training

标注图片如何生成GT

四边形1（即score map，是原图4分之一大小）内部缩小三分之一得到四边形2
四边形2内部取1，外部取0
缩小为原来的4分支1
Sx1的来源：
原图，某个点[i][j] , 对Sx1赋值：缩小框到该点的位移值，x方向的偏移量

对Sx2同上，是y方向的位移偏移值
在这里插入图片描述
四边框2缩小框是经验得来的,小框一般是落在文字上面的，感受野在文字区域里。如果用边界，感受野有一部分在文字外面。
大框小框之间的部分被mask，不参与计算
shrink缩小之后确实更容易收敛
9个feature map 一个是score 另外8个map 分别预测8 个偏移值