参考网站:
{aa99aa} (第一次)
{aa98aa} (分析)
{aa97aa} (简洁)
tesseract训练
为了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
比如我们要训练自定义字库 image 字体名MyFont
那么我们把tif文件重命名 image.MyFont.exp0.tif
新建一个font_properties文件
<fontname> <italic> <bold> <fixed> <serif> <fraktur>
里面内容写入 normal 0 0 0 0 0 表示默认普通字体。
把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上normal.
必须确定的是第2、4、5、6行的数据不是-1,那么一个新的字典就算生成了。
字符识别数据集
使用多张训练图片进行训练。完成
将多个traineddata进行合并。不行。
利用字体文件生成训练集,进行自动化训练。Text2image
要训练一个新的语言(自定义语言或者某种自然语言都可以)对应的traineddata文件,需要产生下列过程文件:
? lang.config
? lang.unicharset
?lang.unicharambigs
? lang.inttemp
? lang.pffmtable
? lang.normproto
? lang.punc-dawg
? lang.word-dawg
?lang.number-dawg
? lang.freq-dawg
在这八个文件中,红色标示的是必须的,其他的文件可选。当这些文件都准备好之后,再使用combine_tessdata进行最后的合并工作,生成lang.traineddata ,这个文件就是最终训练出来语言库。下面再来说一下如何产生上述的文件:
tesseract image.tifoutput -l lang
使用我们刚刚训练好的lang.traineddata文件来识别图形。识别出来的结果将会存放在output.txt文件中。
{aa24aa} (成功)
{aa22aa} (vs中编译和使用)
{aa21aa} (vs配置使用)
{aa20aa} (问题1)
tesseract API 文档
{aa19aa} (tesseract-document)
utf-8问题
{aa18aa} ({aa17aa}{aa16aa}
{aa15aa} (DOS窗口cmd中显示UTF-8字符的解决方法)
opencv编译freeType库,显示中文
{aa14aa} (opencv显示中文)
{aa13aa}(在Mat中写入的类Cv310Text)
openCV文字检测mser
{aa12aa} (文字检测与识别mser)
VS编译opencv_contrib
{aa11aa} (opencv_contrib配置)
问题:
{aa10aa} (解决)
来源: