图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

简介:

tesseract-ocr可以对图像文字进行识别,为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库,使图像转换文本的能力不断增强,也可以调试模型使图像文字进行程序的识别率更高,


一.tesseract4.0的安装与配置环境变量:

1、安装包地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后,直接执行.exe文件进行安装,安装步骤:

(1)选择语言包:

除了默认已经打钩的,再钩上数字公式常用包和简体中文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(2)选择安装路径:(需要记住自己的安装路径,后面配置需要用到)

我的安装路径是:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(3)目录结构:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(4)配置环境变量:

第一步:在环境变量界面的系统变量中找到Path,点击编辑,新建一个D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR(你的安装目录),然后确定。

第二步:在系统变量下面新建一个变量,然后确定。

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(5)检验环境变量是否配置成功:打开cmd命令行,在任意路径,输入“tesseract”,出现下面信息则表示配置成功。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

二、初步使用tesseract4.0进行简单的图片文字识别:

1、先准备一张图片素材(图片命名是wenzi.png),内容如下图:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

2、打开cmd命令行,进入素材图片所在的目录,输入以下命令,就会生成一个test.txt文档,该文档的内容为图片识别后的文字:

tesseract wenzi.png test -l chi_sim+equ+eng

其中,wenzi.png是素材的名字,test是识别后生成的文档的名字,-l是指定使用包(注意:是小写英文字母l,不是阿拉伯数字1),chi_sim是中文识别包,equ是数字公式包,eng是英文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

识别后的test.txt的文字内容:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

3、至此,使用tesseract4.0进行简单的文字识别就完成,虽然识别的成功不高,但是我们可以通过训练字库的方法提高tesseract的识别率,训练tesseract字库的方法在下篇博客再写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/114745.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • c语言qq聊天刷屏代码大全,QQ聊天刷屏脚本 达人分享技巧

    教大家自己编写一个QQ聊天刷屏的脚本,几步就可以搞定哦。操作方法01点击电脑左下角的开始菜单,选择记事本,新建一个记事本文件。02在记事本中输入以下代码:SetWshShell=WScript.CreateObject(“WScript.Shell”)WshShell.AppActivate”wendy”fori=1to10WScript.Sleep500WshShell.SendK…

    2022年4月9日
    770
  • php构建webservice,php webservice实例(简单易懂)「建议收藏」

    php构建webservice,php webservice实例(简单易懂)「建议收藏」phpwebservice实例(简单易懂)首先大家要简单了解了何谓webservice,接下来就做两个非常简单的例子,webservice还是逃不开server端与client端。我测试的环境为:apache2.2.11php5.2.10做这个测试之前,要确认你的php配置文件中已经将soap扩展打开,即extension=php_soap.dll;OK现在我们来体验webservice//…

    2022年7月21日
    14
  • 什么是J2EE?[通俗易懂]

    什么是J2EE?[通俗易懂]什么是J2EE?J2EE是一种用来开发分布式企业软件应用系统的平台。JAVA语言从创生之日起,就获得了广泛接纳,经历了巨大的发展。越来越多的技术都成了JAVA平台的一部分,为了适应不同的需要业开发吃了很多全新的API和标准。最终,Sun公司联合了多家业界巨头,在开放的JAVA社区组织名义下,把所有与企业开发相关的标准,API整合起来,构成了J2EE平台。对于企业,J2EE平台由很多优势:

    2022年10月11日
    0
  • pycharm的版本_pycharm最新版本是多少

    pycharm的版本_pycharm最新版本是多少详情链接:https://www.jetbrains.com/pycharm/download/other.html

    2022年8月29日
    1
  • Origin简单绘图

    Origin简单绘图一、从cadence导出数据仿真生成波形之之后,鼠标选中波形,右击—>SendTo—>Export,进行csv数据的保存。打开该csv文件,删掉第一行,第一行是是横纵坐标的标识,左侧第一列是横坐标值,右侧列是纵坐标值。二、origin简单绘图双击图标打开origin导入csv数据可选中多个csv文件导入为了让两个csv的数据同时显示,在弹出的对话框进行以下操作(默认第二个csv数据会覆盖第一个csv数据)。设置好之后点击“确定”,两个csv数据均被导入到了o

    2022年6月1日
    50
  • python 爬虫 通过搜索引擎搜索好看的图片进行多线程高效率爬取(解决href关联问题)

    python 爬虫 通过搜索引擎搜索好看的图片进行多线程高效率爬取(解决href关联问题)效果:单线程模式:#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2020/12/3018:56#@Author:huni#@File:图集谷单函数.py#@Software:PyCharmimportrequestsfromlxmlimportetreefromurllibimportparseimportosif__name__==’__main__’:h

    2022年7月17日
    18

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号