OCR-easyocr初识

OCR-easyocr初识检测识别 ocr 初识

一、介绍

批量文字识别(OCR)是Python办公自动化的基本操作,应用在我们工作生活中的方方面面,比如车牌识别、证件识别、银行卡识别、票据识别等等。
Python中OCR第三方库非常多,比如easyocr、PaddleOCR、cnocr等等。
EasyOCR 是一个用 Python 编写的 OCR 库,用于识别图像中的文字并输出为文本,支持 80 多种语言。
检测部分使用CRAFT算法,识别模型为CRNN,由3个组件组成:特征提取Resnet、序列标记LSTM、解码CTC。整个深度学习过程基于pytorch实现。
OCR-easyocr初识
图片–预处理(去噪、色彩饱和度、尖锐处理等)–文字检测(CRAFT)–中间处理(倾斜处理等)—文字识别—后续处理—输出结果

二、安装

pip3 install i https://pypi.tuna.tsinghua.edu.cn/simple easyocr
模型储存路径:
windows: C:\Users\username\.EasyOCR\
linux:/root/.EasyOCR/
easyocr 的深度学习算法依赖于另一个著名的第三方模块 pytorch,图形处理部分则会用到 opencv、Pillow 等,所以还需要确保自己电脑上已经安装这些基础模块。
首次使用easyocr识别图片,会自动从网络中下载预训练模型。下载耗时较,而且大概率遇到URLError错误,
OCR-easyocr初识
推荐下载模型文件(下载链接:Jaided AI: EasyOCR model hub),不用解压直接复制粘贴于~/.EasyOCR/model/目录下。
OCR-easyocr初识

三、API文档

3.1、easyocr.Reader class:

参数:
  • lang_list (list) – 识别的语言代码列表,例如 [‘ch_sim’,’en’]
  • gpu (bool, string, default = True) – 启用 GPU
  • model_storage_directory (string, default = None) – 模型数据目录的路径。如果未指定,将从环境变量 EASYOCR_MODULE_PATH(首选)、MODULE_PATH(如果已定义)或 ~/.EasyOCR/ 定义的目录中读取模型。
  • download_enabled (bool, default = True) – 如果 EasyOCR 无法找到模型文件,则启用下载;
  • user_network_directory (bool, default = None) – 用户模型存储的路径。如果未指定,将从 MODULE_PATH + ‘/user_network’ (~/.EasyOCR/user_network) 读取模型;
  • recog_network (string, default = ‘standard’) – 用户模型、模块和配置文件的名称;
  • detector (bool, default = True) – 将检测模型加载到内存中 
  • recognizer (bool, default = True) – 将识别模型加载到内存中
属性:
  • lang_char – 显示当前模型中的所有可用字符

3.2、reader.readtext(

Reader对象的主要方法。有 4 组参数:General、Contrast、Text Detection 和 Bounding Box Merging。
参数1:General
  • image (string, numpy array, byte) – 输入图像;
  • decoder (string, default = ‘greedy’)- 选项有 ‘greedy’、’beamsearch’ 和 ‘wordbeamsearch’;
  • beamWidth (int, default = 5) – 当解码器 = ‘beamsearch’ 或 ‘wordbeamsearch’ 时要保留多少光束;
  • batch_size (int, default = 1) – batch_size>1 将使 EasyOCR 更快但使用更多内存;
  • worker (int, default = 0) – 数据加载器中使用的编号线程;
  • allowlist (string) – 强制 EasyOCR 只识别字符的子集。对特定问题有用(例如车牌等);
  • blocklist (string) – 字符的块子集。如果给定了允许列表,则此参数将被忽略。
  • detail (int, default = 1) – 将此设置为 0 以进行简单输出;
  • paragraph (bool, default = False) – 将结果合并到段落中;
  • min_size (int, default = 10) – 过滤文本框小于最小值(以像素为单位);
  • rotation_info (list, default = None) – 允许 EasyOCR 旋转每个文本框并返回具有最佳置信度分数的文本框。符合条件的值为 90、180 和 270。例如,对所有可能的文本方向尝试 [90, 180 ,270]。
参数2:Contrast 对比度
  • contrast_ths (float, default = 0.1) – 对比度低于此值的文本框将被传入模型 2 次。首先是原始图像,其次是对比度调整为“adjust_contrast”值。结果将返回具有更高置信度的那个;
  • adjust_contrast (float, default = 0.5) – 低对比度文本框的目标对比度级别。
参数3:Text Detection 文本检测(来自CRAFT)
  • text_threshold (float, default = 0.7) – 文本置信度阈值
  • low_text (float, default = 0.4) – 文本下限分数
  • link_threshold (float, default = 0.4) – 链接置信度阈值
  • canvas_size (int, default = 2560) – 最大图像尺寸。大于此值的图像将被缩小。
  • mag_ratio (float, default = 1) – 图像放大率
参数4:Bounding Box Merging 边界框合并
    这组参数控制相邻边界框何时相互合并。除了 ‘slope_ths’ 之外的所有参数都以盒子高度为单位。
  • slope_ths (float, default = 0.1) – 考虑合并的最大斜率 (delta y/delta x)。低值意味着不会合并平铺框。
  • ycenter_ths (float, default = 0.5) – y 方向的最大偏移。不应该合并不同级别的框。
  • height_ths (float, default = 0.5) – 盒子高度的最大差异。不应合并文本大小非常不同的框。
  • width_ths (float, default = 0.5) – 合并框的最大水平距离。
  • add_margin (float, default = 0.1) – 将边界框向所有方向扩展某个值。这对于具有复杂脚本的语言(例如泰语)很重要。
  • x_ths (float, default = 1.0) – 当段落=True 时合并文本框的最大水平距离。
  • y_ths (float, default = 0.5) – 当段落 = True 时合并文本框的最大垂直距离。
返回:结果列表

四、识别模型  

4.1、训练识别模型

可以使用自己的数据或生成自己的数据集。生成您自己的数据建议使用 TextRecognitionDataGenerator(GitHub – Belval/TextRecognitionDataGenerator: A synthetic data generator for text recognition)我们在此处提供了一个数据集示例拥有数据集后,您可以按照此存储库 deep-text-recognition-benchmark(https://github.com/clovaai/deep-text-recognition-benchmark)训练自己的模型。网络需要完全卷积才能预测灵活的文本长度。我们当前的网络是“None-VGG-BiLSTM-CTC”。一旦你有了训练好的模型(一个.pth文件),你需要两个额外的文件来描述识别网络架构和模型配置。此处custom_example.zip的文件中提供了一个示例
OCR-easyocr初识
我们还在此处提供我们的训练脚本版本它是deep-text-recognition-benchmark的修改版本。

4.2、使用自定义的识别模型

需要三个文件,这三个文件必须共享相同的名称,即yourmodel.pth,  yourmodel.yaml,yourmodel.py,然后您将使用它们在 EasyOCR API 中调用您的模型。
请下载custom_example.zip 作为示例,解压并放置custom_example.py,custom_example.yaml在user_network_directory(默认= ~/.EasyOCR/user_network),放置custom_example.pth在模型目录(默认= ~/.EasyOCR/model。一旦你将所有3个文件放在各自的位置,你可以通过设置recog_network来使用custom_example:reader = easyocr.Reader([‘en’], recog_network=’custom_example’)

五、使用

5.1、基本使用1

可以通过命令行使用如下:
$ easyocr -l ch_sim en -f chinese.jpg --detail=1 --gpu=True 

5.2、基本使用2

OCR-easyocr初识
 

import easyocr reader = easyocr.Reader(     lang_list=['ch_sim', 'en'], # 需要导入的语言识别模型,可以传入多个语言模型,其中英语模型en可以与其他语言共同使用     gpu=False, # 默认为True     download_enabled=True # 默认为True,如果 EasyOCR 无法找到模型文件,则启用下载 ) result = reader.readtext('id_card.jpg', detail=1 ) # 图片可以传入图片路径、也可以传入图片链接。但推荐传入图片路径,会提高识别速度。包含中文会出错。设置detail=0可以简化输出结果,默认为1 print(result) readtext 返回的列表中,每个元素都是一个元组,内含三个信息:位置、文字、置信度: [     ([[27, 37], [341, 37], [341, 79], [27, 79]], '姓  名  爱新觉罗 。玄烨', 0.32619),     ([[29, 99], [157, 99], [157, 135], [29, 135]], '性  别  男', 0.1559),     ([[180, 95], [284, 95], [284, 131], [180, 131]], '民蔟满', 0.93509),     ([[30, 152], [94, 152], [94, 182], [30, 182]], '出  生', 0.10449),     ([[110, 152], [344, 152], [344, 184], [110, 184]], '1654 年54日', 0.),     ([[29, 205], [421, 205], [421, 243], [29, 243]], '住  址   北京市东城区景山前街4号', 0.01117),     ([[105, 251], [267, 251], [267, 287], [105, 287]], '紫禁城乾清宫', 0.05053),     ([[32, 346], [200, 346], [200, 378], [32, 378]], '公民身份证号码', 0.),     ([[218, 348], [566, 348], [566, 376], [218, 376]], '0000042', 0.5785) ] detail=0,从而只返回文字内容: ['姓  名  爱新觉罗 。玄烨', '性  别  男', '民蔟满', '出  生', '1654 年54日', '住  址  北京市东城区景山前街4号', '紫禁城 乾清宫', '公民身份证号码', '0000042']

5.3、基本使用3

OCR-easyocr初识
识别后的结果并不完全准确
OCR-easyocr初识

六、参考

Jaided AI: EasyOCR install 官网

Jaided AI: EasyOCR model hub 模型下载

GitHub – JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/204235.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午8:41
下一篇 2026年3月19日 下午8:41


相关推荐

  • 测试集(2)-words

    测试集(2)-words aa.ma.mabandonabandonabattoirabilityabilityableableabnormalabnormalaboardaboardaboutaboutaboveaboveabracadabraabroadabroadabsenceabsenceabsentabsent

    2022年7月21日
    22
  • 分布式事务TCC(Hmily)

    分布式事务TCC(Hmily)1什么是TCC事务?TCC是Try、Confirm、Cancel三个词语,TCC分布式事务的三个操作:预处理Try、确认Confirm、撤销Cancel。Try操作业务检查以及资源预留,Confirm做业务确认操作,Cancel实现一个月try相反的操作即为回滚操作。Try操作全部成功,TM将会发起所有分支事务的Confirm操作,如Confirm/Cancel操作失败,TM进行重试。分支事务失败的情况:TCC分了三个阶段:(1)Try阶段是做业务检查以及资源预留,此阶段仅是一个初步操作,它和

    2022年5月21日
    40
  • 超全MyBatis动态SQL详解!( 看完SQL爽多了)

    超全MyBatis动态SQL详解!( 看完SQL爽多了)MyBatis令人喜欢的一大特性就是动态SQL。在使用JDBC的过程中,根据条件进行SQL的拼接是很麻烦且很容易出错的。MyBatis动态SQL的出现,解决了这个麻烦。MyBatis通过OGNL来进行动态SQL的使用的。目前,动态SQL支持以下几种标签:1数据准备为了后面的演示,创建了一个Maven项目mybatis-dynamic,创建了对…

    2022年6月23日
    21
  • Matplotlib 中文宋体 & 英文 Times New Roman 设置

    Matplotlib 中文宋体 & 英文 Times New Roman 设置安装宋体查找 plt 安装目录 locate b mpl data 得到 usr local lib python2 7 dist packages matplotlib mpl data usr local lib python3 5 dist packages matplotlib mpl datampl data 文件夹下有个 fonts ttf 文件夹 将 ttf 格式的字体文件复制到此 ttf 文件夹下即可 sudomvSimSun ttf usr local lib p

    2026年2月13日
    3
  • 自动化测试之超厉害自动化录制工具介绍

    自动化测试之超厉害自动化录制工具介绍

    2021年9月17日
    154
  • pdaf添加实例(2p7,type2)[通俗易懂]

    pdaf添加实例(2p7,type2)[通俗易懂]/***s5k2p7_pdaf.h**Copyright(c)2015QualcommTechnologies,Inc.*AllRightsReserved.*ConfidentialandProprietary-QualcommTechnologies,Inc.*/.vendor_id=QTI,.stats_dt=0x30

    2025年9月28日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号