图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

简介:

tesseract-ocr可以对图像文字进行识别,为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库,使图像转换文本的能力不断增强,也可以调试模型使图像文字进行程序的识别率更高,


一.tesseract4.0的安装与配置环境变量:

1、安装包地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后,直接执行.exe文件进行安装,安装步骤:

(1)选择语言包:

除了默认已经打钩的,再钩上数字公式常用包和简体中文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(2)选择安装路径:(需要记住自己的安装路径,后面配置需要用到)

我的安装路径是:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(3)目录结构:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(4)配置环境变量:

第一步:在环境变量界面的系统变量中找到Path,点击编辑,新建一个D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR(你的安装目录),然后确定。

第二步:在系统变量下面新建一个变量,然后确定。

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(5)检验环境变量是否配置成功:打开cmd命令行,在任意路径,输入“tesseract”,出现下面信息则表示配置成功。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

二、初步使用tesseract4.0进行简单的图片文字识别:

1、先准备一张图片素材(图片命名是wenzi.png),内容如下图:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

2、打开cmd命令行,进入素材图片所在的目录,输入以下命令,就会生成一个test.txt文档,该文档的内容为图片识别后的文字:

tesseract wenzi.png test -l chi_sim+equ+eng

其中,wenzi.png是素材的名字,test是识别后生成的文档的名字,-l是指定使用包(注意:是小写英文字母l,不是阿拉伯数字1),chi_sim是中文识别包,equ是数字公式包,eng是英文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

识别后的test.txt的文字内容:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

3、至此,使用tesseract4.0进行简单的文字识别就完成,虽然识别的成功不高,但是我们可以通过训练字库的方法提高tesseract的识别率,训练tesseract字库的方法在下篇博客再写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/114745.html原文链接:https://javaforall.net

(0)
上一篇 2021年9月26日 上午8:00
下一篇 2021年9月26日 上午8:00


相关推荐

  • CentOS安装验证PaceMaker

    CentOS安装验证PaceMakerCentOS 安装验证 PaceMaker 建立双机信任关系不是必须的增加节点间的认证 在其中一台执行配置双机独占卷组激活创建资源组通过 pcsstatus 可以看到资源启动失败继续添加其他资源验证参考 ClusterSoftw access redhat com documentatio en us red hat enterprise linux

    2026年3月17日
    2
  • PyCharm配置Git版本控制

    PyCharm配置Git版本控制步骤 1 配置 git 配置用户名与邮箱 这里 global 表示为全局设置 gitconfigglo name yourname 打开 Pycharm 进入 settings VersionContr Git 路径为你的 Git 安装路径 外链图片转存失败 源站可能有防盗链机制 建议将图片保存下来直接上传步骤 2 利用 Token 连接 Pycharm 与 Github 账号打开 settin

    2026年3月19日
    3
  • Nacos配置中心用法详细介绍

    Nacos配置中心用法详细介绍配置中心区别于传统的配置信息分散到系统各个角落的方式 对系统中的配置文件进行集中统一管理 而不需要逐一对单个的服务器进行管理 通过配置中心 可以使得配置标准化 格式统一化 当配置信息发生变动时 修改实时生效 无需要重新重启服务器 就能够自动感知相应的变化 并将新的变化统一发送到相应程序上 快速响应变化 通过审计功能还可以追溯问题

    2026年3月18日
    3
  • 连接docker中的mysql_搭建docker环境

    连接docker中的mysql_搭建docker环境使用docker部署springboot项目并连接上mysql数据库需要的知识Linux操作系统docker(了解git的工作方式即可)工具xshell(用来连接linux服务器)xftp用来给linux服务器上传文件sqlyog(或者navicat)在服务器上解析.sql脚本maven(idea自带)用来打包接下来我们开始正式操作服务器的选择我选择的是阿里…

    2022年8月31日
    9
  • jQuery省市区三级联动插件

    体验效果:http://hovertree.com/texiao/bootstrap/4/支持PC和手机移动端.手机扫描二维码体验效果:代码如下:数据来源:http://hovertree.co

    2021年12月22日
    45
  • python和pycharm哪个好_初学python,pycharm和Spyder哪个好?

    python和pycharm哪个好_初学python,pycharm和Spyder哪个好?KDnuggets201 年的一个博客发起了一项投票 数据科学中最好用的 PythonIDE 是什么 本次调查共有 1900 多人参与 调查结果如下图所示 前 5 个选择是 Jupyter 57 PyCharm 35 Spyder 27 VisualStudio 21 SublimeText 12 如果你是数据分析师 使用 notebook 方便分析数据 使用教程 如果你是开发人员 使用 pych

    2026年3月27日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号