EAST文字检测网络
可以以很小的计算量,加在其他backbone之后改善检测效果
主讲人赵明明
具体,性能和准确率
fscore 0.757 , fps 16.8 ,
PVANet fps 16.8
channel乘以2倍,fps13.2
FCN+NMS
EAST 详细 pipelline
feature merging
conv stage 包括conv pooling等、
多层特征的融合,有小目标和大目标
假设
score map 上的[i][j]=1
Sx1 map[i][j] = -3
Sx2 map[i][j] = -2
Sx3 map[i][j] = 6
从 score map上位置 按照Sx1 , Sx2分别向xy移动,得到一个顶点
图中是4个feature map , 一共9个
图上每个图都取[i][j]位置,代表一个框
第一个是置信度,另外八个点是位移大小
以当前点[i][j]为基准
局部感知NMS
直接NMS计算量太大,所以先局部合并,降低框的个数,最后再用标准NMS
整张图m/4 , n/4 , 每个点代表一个四边形
先看前两个四边形IOU 若>0.5 则合并
方法:加权融合(而不是NMS那种舍弃一个)
S x B1 + S x B2 (比较稳定而不会抖动)
前两个框和第三个框做同样步骤,看IOU
新框Score = S1+S2,有可能大于1
四个坐标分别计算
细节:1,2融合,3没有融合,4的时候不和1,2计算了
标准NMS
standard NMS
Loss function
L = Ls + λ Lg
score map loss , geometry map loss(那八个偏移部分的loss),
λ 默认1
LS是交叉熵loss
Y星为0时,就是后面部分
Y星为1时就是前面部分
β是类平衡因子,Y星是score map , m/4,n/4大小的图片
大概是0.9,因为负例部分多
正例比重乘到负例loss
负例乘到正例loss
这是类平衡交叉熵loss
loss for Geometry
由于有两个min的操作,因而与标注顺序无关
通过最小边来优化(选定最小边是人工指定的一个边)
Training
标注图片如何生成GT
- 四边形1(即score map,是原图4分之一大小)内部缩小三分之一得到四边形2
- 四边形2内部取1,外部取0
- 缩小为原来的4分支1
Sx1的来源:
原图,某个点[i][j] , 对Sx1赋值:缩小框到该点的位移值,x方向的偏移量
对Sx2同上,是y方向的位移偏移值
四边框2缩小框是经验得来的,小框一般是落在文字上面的,感受野在文字区域里。如果用边界,感受野有一部分在文字外面。
大框小框之间的部分被mask,不参与计算
shrink缩小之后确实更容易收敛
9个feature map 一个是score 另外8个map 分别预测8 个偏移值
x1,x2,x3,x4,x5,x6,x7,x8分别是对四个边界分别取x,y方向偏移
EAST本身对计算量增加很小,可以使用不同规模backbone
不同层Ground Truth怎么处理: