OCR识别网络CRNN理解与Pytorch实现

牧羊女说

已于 2024-01-19 18:29:13 修改

阅读量2.6k

点赞数 23

CC 4.0 BY-SA版权

分类专栏： Python PyTorch OCR 文章标签： ocr

于 2024-01-19 18:28:44 首次发布

本文链接：https://blog.csdn.net/DeliaPu/article/details/135700749

CRNN是2015年的论文“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”提出的图像字符识别网络，也是目前工业界使用较为广泛的一个OCR网络。论文地址：https://arxiv.org/abs/1507.05717

1. 网络结构

CRNN是一个端到端可训练的网络，并且可处理任意长度的字符序列。CRNN得名于Convolutional Recurrent Neural Network，从名称即可看出，该网络包含了卷积网络和递归网络。实际上，CRNN由三部分组成，分别是卷积层部分（Convolutional layers）、递归层部分（Recurrent Layers）和转录层部分（Transcription Layers），如下图所示：

其中，卷积层的作用是从输入图像中提取特征，递归层则对卷积层输出的feature maps进行预测，最后，转录层将递归层的预测结果翻译成文字标签序列。CNN和RNN可由同一个损失函数进行联合训练。

在图像输入CRNN之前，需要缩放到指定高度height，宽度无限制。卷积层输出的feature maps在送入RNN之前，从左到右生成一个feature vector序列，第i个feature vector为feature maps第i列的元素的级联。这样做的好处是，每个feature vector代表了原图像上一个矩形区域的特征（感受野），使得网络能够预测不同长度的字符序列。