图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

简介:

tesseract-ocr可以对图像文字进行识别,为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库,使图像转换文本的能力不断增强,也可以调试模型使图像文字进行程序的识别率更高,


一.tesseract4.0的安装与配置环境变量:

1、安装包地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后,直接执行.exe文件进行安装,安装步骤:

(1)选择语言包:

除了默认已经打钩的,再钩上数字公式常用包和简体中文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(2)选择安装路径:(需要记住自己的安装路径,后面配置需要用到)

我的安装路径是:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(3)目录结构:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(4)配置环境变量:

第一步:在环境变量界面的系统变量中找到Path,点击编辑,新建一个D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR(你的安装目录),然后确定。

第二步:在系统变量下面新建一个变量,然后确定。

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(5)检验环境变量是否配置成功:打开cmd命令行,在任意路径,输入“tesseract”,出现下面信息则表示配置成功。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

二、初步使用tesseract4.0进行简单的图片文字识别:

1、先准备一张图片素材(图片命名是wenzi.png),内容如下图:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

2、打开cmd命令行,进入素材图片所在的目录,输入以下命令,就会生成一个test.txt文档,该文档的内容为图片识别后的文字:

tesseract wenzi.png test -l chi_sim+equ+eng

其中,wenzi.png是素材的名字,test是识别后生成的文档的名字,-l是指定使用包(注意:是小写英文字母l,不是阿拉伯数字1),chi_sim是中文识别包,equ是数字公式包,eng是英文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

识别后的test.txt的文字内容:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

3、至此,使用tesseract4.0进行简单的文字识别就完成,虽然识别的成功不高,但是我们可以通过训练字库的方法提高tesseract的识别率,训练tesseract字库的方法在下篇博客再写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/114745.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 来自IT公司速查手册的各大IT公司薪资和待遇内幕

    来自IT公司速查手册的各大IT公司薪资和待遇内幕来自IT公司速查手册的各大IT公司薪资和待遇内幕

    2022年7月16日
    21
  • Iocomp .NET WinForms Ultra Pack Crack

    Iocomp .NET WinForms Ultra Pack CrackIocomp.NETWinFormsUltraPack–Ω578867473TheIocomp.NETWinFormsUltraPackcontrolswerewritteninC#andtakefulladvantageofGDI+.TheyproduceinstrumentationcontrolswithprofessionallooksandtightintegrationintoMicrosoft’s.NETFramework

    2022年7月17日
    11
  • sql中declare声明变量_sql怎么定义变量

    sql中declare声明变量_sql怎么定义变量一、变量的分类及特点1、变量的分类总体可以分为两大类:系统变量和用户自定义变量系统变量:包括全局变量和会话变量自定义变量:包括局部变量和用户用户变量2、变量的特点:1、系统变量的特点:(1)、每个客户机成功连接服务器后,都会产生与之对应的会话。会话期间,服务实例会在服务器内存中生成与该会话对应的会话系统变量。这些会话系统变量的初始值都是全局系统变量值的复制,有了标记不同的会话,会话系统又新增了一些变量,这些变量是全局扁郎没有…

    2022年8月20日
    15
  • 物联网网络架构_物联网技术有哪些

    物联网网络架构_物联网技术有哪些系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章Python机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例

    2022年9月18日
    2
  • linux系统怎么看内存使用率_cpu使用率0

    linux系统怎么看内存使用率_cpu使用率0一、查看CPU使用率1.top命令top命令可以看到总体的系统运行状态和cpu的使用率。%us:表示用户空间程序的cpu使用率(没有通过nice调度)%sy:表示系统空间的cpu使用率,主要是内核程序。%ni:表示用户空间且通过nice调度过的程序的cpu使用率。%id:空闲cpu%wa:cpu运行时在等待io的时间%hi:cpu处理硬中断的数量%si:cpu处理软中断…

    2025年8月29日
    5
  • 自动刷视频挂机软件(电脑无限刷屏代码)

    该楼层疑似违规已被系统折叠隐藏此楼查看此楼[SPARKLES]。[GLOWINGSTAR]。[SPARKLES]。[CHRISTMASTREE]。。[SPARKLES][CHRISTMASTREE][CHRISTMASTREE]。。[SPARKLES][SPARKLES][CHRISTMAST…

    2022年4月17日
    73

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号