图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

简介:

tesseract-ocr可以对图像文字进行识别,为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库,使图像转换文本的能力不断增强,也可以调试模型使图像文字进行程序的识别率更高,


一.tesseract4.0的安装与配置环境变量:

1、安装包地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后,直接执行.exe文件进行安装,安装步骤:

(1)选择语言包:

除了默认已经打钩的,再钩上数字公式常用包和简体中文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(2)选择安装路径:(需要记住自己的安装路径,后面配置需要用到)

我的安装路径是:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(3)目录结构:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(4)配置环境变量:

第一步:在环境变量界面的系统变量中找到Path,点击编辑,新建一个D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR(你的安装目录),然后确定。

第二步:在系统变量下面新建一个变量,然后确定。

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(5)检验环境变量是否配置成功:打开cmd命令行,在任意路径,输入“tesseract”,出现下面信息则表示配置成功。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

二、初步使用tesseract4.0进行简单的图片文字识别:

1、先准备一张图片素材(图片命名是wenzi.png),内容如下图:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

2、打开cmd命令行,进入素材图片所在的目录,输入以下命令,就会生成一个test.txt文档,该文档的内容为图片识别后的文字:

tesseract wenzi.png test -l chi_sim+equ+eng

其中,wenzi.png是素材的名字,test是识别后生成的文档的名字,-l是指定使用包(注意:是小写英文字母l,不是阿拉伯数字1),chi_sim是中文识别包,equ是数字公式包,eng是英文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

识别后的test.txt的文字内容:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

3、至此,使用tesseract4.0进行简单的文字识别就完成,虽然识别的成功不高,但是我们可以通过训练字库的方法提高tesseract的识别率,训练tesseract字库的方法在下篇博客再写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/114745.html原文链接:https://javaforall.net

(0)
上一篇 2021年9月26日 上午8:00
下一篇 2021年9月26日 上午8:00


相关推荐

  • java timsort_Timsort算法浅析

    java timsort_Timsort算法浅析上一篇谈到的双轴快排 是 Arrays 对八种基本类型进行排序的算法 针对其它的对象类型 JDK1 6 及以前的版本使用的是归并排序 从 JDK1 7 开始 默认情况下会采用 Timsort 排序算法 而 Collections sort 实际上也是调用 Arrays sort 方法 现实中的大多数据通常是有部分已经排好序的 该算法利用这一特点提升了排序效率 下面将跟随 JDK1 8 源码 对 Timsort 的实现进行分析

    2026年3月19日
    3
  • vagrant box镜像百度下载地址

    vagrant box镜像百度下载地址

    2022年2月8日
    43
  • Springboot 使用RestTemplate

    Springboot 使用RestTemplate最近项目中 springboot 使用了 RestTemplate 在此了解和学习了一下 有问题请指正 1 先学习最简单的使用创建 RestTemplate SimpleClient newSimpleCli requestFacto setConnectTi

    2026年3月11日
    4
  • extends通配符

    extends通配符我们前面已经讲到了泛型的继承关系 Pair Integer 不是 Pair Number 的子类 假设我们定义了 Pair T publicclassP T 然后 我们又针对 Pair Number 类型写了一个静态方法 它接收的参数类型是 Pair Number publiccl Number Number T T Number Integer

    2026年3月4日
    2
  • vs code如何运行_vs如何代码提示

    vs code如何运行_vs如何代码提示第一步:新建C#项目文件夹并将其在VisualStudioCode中打开之后,在底下的终端中输入下方指令创建项目的.csproj文件:dotnetnewconsole第二步:执行下方指令编译代码:dotnetrestore第三步:输入下方指令运行项目。dotnetrun…

    2025年10月14日
    4
  • c++实现个人通讯录

    c++实现个人通讯录

    2021年10月2日
    159

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号