原文: An Overview of the Tesseract OCR Engine
Tesseract的识别步骤大致如下:
1. 连通区域分析;
2. 检测出字符区域区域(轮廓外形),以及子轮廓;
3. 由字符轮廓,得出文本行,以及通过空格识别出单词,通过字符单元分割出单个字符,而对百分号的文本(Proportional text)通过fuzzy空格来分割为单词;
4. 每个单词进行分析,采用自适应分类器,分类器有学习能力,先分析的且满足条件的字母也作为训练样本,所以后面的字符(比如页尾)的字符识别更精确;此时,页首的字符识别比较吃亏,所以tesseract会对整页的识别不太好的字符,再次进行识别。
5.最后,识别含糊不清的空格,及用其他方法,如由笔画高度(x-height),识别小写字母的文本。
small-cap:小写字母?
利用第四个步骤的特性,对单个字符识别,选用能识别的比较好的字符放在页首,将待识别的字符放在页尾