旷世:高效准确的文字检测

EAST文字检测网络

可以以很小的计算量,加在其他backbone之后改善检测效果
主讲人赵明明在这里插入图片描述
具体,性能和准确率
在这里插入图片描述
fscore 0.757 , fps 16.8 ,
PVANet fps 16.8
channel乘以2倍,fps13.2

在这里插入图片描述
FCN+NMS

在这里插入图片描述
EAST 详细 pipelline
在这里插入图片描述

feature merging

在这里插入图片描述
conv stage 包括conv pooling等、
多层特征的融合,有小目标和大目标

在这里插入图片描述
假设
score map 上的[i][j]=1
Sx1 map[i][j] = -3
Sx2 map[i][j] = -2
Sx3 map[i][j] = 6
在这里插入图片描述
从 score map上位置 按照Sx1 , Sx2分别向xy移动,得到一个顶点
图中是4个feature map , 一共9个
图上每个图都取[i][j]位置,代表一个框
第一个是置信度,另外八个点是位移大小
以当前点[i][j]为基准

在这里插入图片描述

局部感知NMS

直接NMS计算量太大,所以先局部合并,降低框的个数,最后再用标准NMS
在这里插入图片描述
整张图m/4 , n/4 , 每个点代表一个四边形
先看前两个四边形IOU 若>0.5 则合并
方法:加权融合(而不是NMS那种舍弃一个)
S x B1 + S x B2 (比较稳定而不会抖动)
前两个框和第三个框做同样步骤,看IOU
新框Score = S1+S2,有可能大于1
四个坐标分别计算
细节:1,2融合,3没有融合,4的时候不和1,2计算了

标准NMS

standard NMS

Loss function

L = Ls + λ Lg
score map loss , geometry map loss(那八个偏移部分的loss),
λ 默认1
LS是交叉熵loss
Y星为0时,就是后面部分
Y星为1时就是前面部分
β是类平衡因子,Y星是score map , m/4,n/4大小的图片
大概是0.9,因为负例部分多

正例比重乘到负例loss
负例乘到正例loss
这是类平衡交叉熵loss

loss for Geometry

由于有两个min的操作,因而与标注顺序无关
通过最小边来优化(选定最小边是人工指定的一个边)

Training

标注图片如何生成GT

  1. 四边形1(即score map,是原图4分之一大小)内部缩小三分之一得到四边形2
  2. 四边形2内部取1,外部取0
  3. 缩小为原来的4分支1
    Sx1的来源:
    原图,某个点[i][j] , 对Sx1赋值:缩小框到该点的位移值,x方向的偏移量

对Sx2同上,是y方向的位移偏移值
在这里插入图片描述
四边框2缩小框是经验得来的,小框一般是落在文字上面的,感受野在文字区域里。如果用边界,感受野有一部分在文字外面。
大框小框之间的部分被mask,不参与计算
shrink缩小之后确实更容易收敛
9个feature map 一个是score 另外8个map 分别预测8 个偏移值

在这里插入图片描述
x1,x2,x3,x4,x5,x6,x7,x8分别是对四个边界分别取x,y方向偏移

EAST本身对计算量增加很小,可以使用不同规模backbone
不同层Ground Truth怎么处理:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值