Tesseract ocr 中文批量训练脚本

Tesseract ocr 中文批量训练脚本

@echo off 

 

set “src=%1%” 

set “font_name=%2%”

set “desc=%3%” 

 

 

if  not  defined src set /p src=” please pass your filename : “

 

if  not  defined font_name set /p font_name=” please pass your font_name : “

 

rem 判断参数的合法性

 

if  not  defined src echo  IllegalArgumentException arg1 must not be null &  pause>nul & exit

 

if  not  defined font_name echo  IllegalArgumentException arg2 must not be null &  pause>nul & exit

 

if  not  defined desc set “desc=%src:~0,-4%”  

 

 echo desc %desc%

 

rem 如果目录下没有font_properties 文件创建 font_properties ,并写入文件

if exist font_properties (

 echo  font_properties exist

) else (

ECHO  %font_name% 0 0 0 0 0  >”font_properties”

)

 

rem  删除原有文件  

if exist %font_name%.unicharset ECHO DEL %font_name%.unicharset &   DEL  /Q  names %font_name%.unicharset

if exist %font_name%.inttemp  ECHO DEL %font_name%.inttemp &  DEL  /Q  names %font_name%.inttemp

if exist %font_name%.pffmtable  ECHO DEL %font_name%.pffmtable &  DEL  /Q  names %font_name%.pffmtable

if exist %font_name%.shapetable ECHO DEL %font_name%.shapetable & DEL  /Q  names %font_name%.shapetable

if exist %font_name%.normproto ECHO DEL %font_name%.normproto & DEL  /Q  names %font_name%.normproto

if exist %font_name%.font_properties ECHO DEL %font_name%.font_properties & DEL  /Q  names %font_name%.font_properties

 

rem   makebox

 

tesseract  %src%  %desc%   -l chi_sim -psm 6 batch.nochop makebox

 

java -Xms128m -Xmx512m -jar jTessBoxEditor/jTessBoxEditor.jar

 

ECHO Please change your results , and press any key to continue

 

pause>nul 

  

tesseract  %src%  %desc%  -l chi_sim -psm 6 nobatch box.train

 

unicharset_extractor %desc%.box

 

shapeclustering -F font_properties -U unicharset %desc%.tr

 

mftraining -F font_properties -U unicharset -O  unicharset %desc%.tr

 

cntraining %desc%.tr

 

 

rem  配置新文件

if exist unicharset ECHO rename unicharset %font_name%.unicharset &  rename unicharset %font_name%.unicharset

if exist inttemp ECHO rename inttemp %font_name%.inttemp &  rename inttemp %font_name%.inttemp

if exist pffmtable ECHO rename pffmtable %font_name%.pffmtable &  rename pffmtable %font_name%.pffmtable

if exist shapetable ECHO rename shapetable %font_name%.shapetable &  rename shapetable %font_name%.shapetable

if exist normproto ECHO rename normproto %font_name%.normproto &  rename normproto %font_name%.normproto

 

combine_tessdata %font_name%.

 

if exist font_properties ECHO rename font_properties %font_name%.font_properties & rename font_properties %font_name%.font_properties

 

ECHO  press any key to continue

pause>nul 

 

 

转载于:https://my.oschina.net/rock912/blog/609780

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/109157.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 对LARS(Least Angle Regression)的简单理解

    对LARS(Least Angle Regression)的简单理解前言我在本科的时候接触过用LASSO筛选变量的方法,但了解不多。这几天在公司实习,学习到特征选择,发现还有个LARS是经常和LASSO一起被提起的,于是我临时抱佛脚,大概了解了一下LARS的原理。在看文章的时候发现很多人提到SolutionPath这样一个概念,感觉很费解,后来参阅了Efron等人的"LeastAngleRegression"论文,总算是明白了一些。不过本人由于懒,后面数学…

    2022年6月20日
    29
  • java中的io流知识总结_java数据流

    java中的io流知识总结_java数据流无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。内容概要JavaIO流的设计不得不让人拍案叫绝,佩服设计者鬼斧天工的手法。如果你是Java初学者,我敢保证第一次接触Java的IO类,一定会”狂晕!”,倒不是因为它有多么难学而是太多,而且及其让人有种“不识庐山…

    2022年10月20日
    0
  • AGI:走向通用人工智能的【生命学&哲学&科学】第一篇——生命、意识、五行、易经、量子

    AGI:走向通用人工智能的【生命学&哲学&科学】第一篇——生命、意识、五行、易经、量子AGI:走向通用人工智能的【生命学&哲学&科学】第一篇——生命、意识、五行、易经、量子经典的物理统一在原子上,量子的物理统一在量子上,化学统一在元素上,而生命统一在DNA上,DNA本身拆干了,其实就是一群元素,按照经典物理和量子物理所进行的组合。科学本质上是一种经验主义的认识论,属于哲学的一个分支。量子理论,要通过哲学语言,量子属于形而上看不到、摸不着的东西。元气的基本五行,是世界万物的行成与演变的方式。生命的本质是化学,化学的本质是物理,物理的本质用数学描述,数学的本质是由我们的某种语言写出

    2022年6月3日
    36
  • IE8允许ActiveX控件设置

    IE8允许ActiveX控件设置IE11允许ActiveX控件设置在IE浏览器菜单栏,找到“Internet选项”,—》“安全”—》“Internet”—》“自定义级别”找到ActiveX控件相关信息。其他都改为启用对未标记为可安全执行脚本的ActiveX控件初始化并执行脚本:提示下载未签名的ActicveX控件:提示下载已签名的ActicveX控件:提示允许script默认原设置

    2022年5月14日
    50
  • Idea激活码最新教程2024.2.0.2版本,永久有效激活码,亲测可用,记得收藏

    Idea激活码最新教程2024.2.0.2版本,永久有效激活码,亲测可用,记得收藏Idea 激活码教程永久有效 2024 2 0 2 激活码教程 Windows 版永久激活 持续更新 Idea 激活码 2024 2 0 2 成功激活

    2025年5月28日
    2
  • java webservice 实例_Java WebService 简单实例(附实例代码)

    java webservice 实例_Java WebService 简单实例(附实例代码)前言:朋友们开始以下教程前,请先看第五大点的注意事项,以避免不必要的重复操作。一、准备工作(以下为本实例使用工具)1、MyEclipse10.7.12、JDK1.6.0_22二、创建服务端1、创建【WebServiceProject】,命名为【TheService】。2、创建【Class】类,命名为【ServiceHello】,位于【com.hyan.service】包下。3、编写供客户端调…

    2022年7月21日
    13

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号