#今日论文推荐#顶刊TPAMI 2022，基于概率分布图的任意形状文本实例分割和检测方法

最新推荐文章于 2025-03-03 09:30:00 发布

wwwsxn

最新推荐文章于 2025-03-03 09:30:00 发布

阅读量532

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/6311fefc7cb68b460f12520f

神经网络专栏收录该内容

9 篇文章

订阅专栏

#今日论文推荐#顶刊TPAMI 2022，基于概率分布图的任意形状文本实例分割和检测方法

本文简要介绍TPAMI 2022录用论文"Arbitrary Shape Text Detection via Segmentation with Probability Maps"的主要工作。该文提出了一个基于概率分布图的任意形状文本实例分割和检测方法。本文设计了一个Sigmoid Alpha Function (SAF)函数来建模一个像素属于文本像素的概率和到标注边界距离的关系。我们可以选取一组合适的分布来覆盖任意非确定性的分布。一个迭代模型被用来隐式地学习一组分布之间的映射关系，通过迭代的方法逐步生成概率分布图。最后，区域生长算法处理这一组概率分布图，从而完整地重建出精确的文本实例区域。

任意形状文本检测是一项具有挑战性的任务，这是由于多变的方向或形状，悬殊的大小和宽高比，以及不精确的标注等因素导致的。由于基于实例分割的方法[1][2]能够很容易地适应各种不同形状的文本，因此近年来受到了广泛关注。目前，基于分割思路来解决任意形状文本检测的方法[1][2][3]大多依赖对图片像素进行二分类(Text/no-text)得到的置信度分布图。然而，文本图像精确的像素级标注是非常困难的，现有的场景文本检测数据集大多只提供粗粒度的边界标注，这些供粗粒度的边界标注内总是存在大量背景噪声像素。但是现有的检测方法[3]往往选择了忽略这个问题，从而简单地认为粗粒度的边界标注内的像素都是文本像素。这也导致了通过学习得到的置信度分布图不那么令人满意，常常包含许多的噪声和缺陷，从而极大的限制了模型的实际分割效果。
对于文本检测来说，粗粒度的边界标注通常是落在背景区域的。由于标注的偏差，标注的边界究竟包含的多少的背景区域，是难以准确的衡量的。但是可以知道的是，标注边界内的像素，距离标注边界越近，那么它是背景像素的概率就越大。从现有一些基于分割的文本检测方法得到的置信度分布图，我们也可以看出对于同一个文本实例，置信度的分布大概呈现从中到边界递减的规律。基于此观察，这篇论文提出了一个概率分布图的文本检测方法，用于准确分割文本实例。

论文题目：Arbitrary Shape Text Detection via Segmentation with Probability Maps.
详细解读：https://www.aminer.cn/research_report/6311fefc7cb68b460f12520fhttps://www.aminer.cn/research_report/6311fefc7cb68b460f12520f
AMiner链接：https://www.aminer.cn/?f=cs