一、介绍
二、安装
windows: C:\Users\username\.EasyOCR\linux:/root/.EasyOCR/
三、API文档
3.1、easyocr.Reader class:
-
lang_list (list) – 识别的语言代码列表,例如 [‘ch_sim’,’en’]
-
gpu (bool, string, default = True) – 启用 GPU
-
model_storage_directory (string, default = None) – 模型数据目录的路径。如果未指定,将从环境变量 EASYOCR_MODULE_PATH(首选)、MODULE_PATH(如果已定义)或 ~/.EasyOCR/ 定义的目录中读取模型。
-
download_enabled (bool, default = True) – 如果 EasyOCR 无法找到模型文件,则启用下载;
-
user_network_directory (bool, default = None) – 用户模型存储的路径。如果未指定,将从 MODULE_PATH + ‘/user_network’ (~/.EasyOCR/user_network) 读取模型;
-
recog_network (string, default = ‘standard’) – 用户模型、模块和配置文件的名称;
-
detector (bool, default = True) – 将检测模型加载到内存中
-
recognizer (bool, default = True) – 将识别模型加载到内存中
-
lang_char – 显示当前模型中的所有可用字符
3.2、reader.readtext()
-
image (string, numpy array, byte) – 输入图像;
-
decoder (string, default = ‘greedy’)- 选项有 ‘greedy’、’beamsearch’ 和 ‘wordbeamsearch’;
-
beamWidth (int, default = 5) – 当解码器 = ‘beamsearch’ 或 ‘wordbeamsearch’ 时要保留多少光束;
-
batch_size (int, default = 1) – batch_size>1 将使 EasyOCR 更快但使用更多内存;
-
worker (int, default = 0) – 数据加载器中使用的编号线程;
-
allowlist (string) – 强制 EasyOCR 只识别字符的子集。对特定问题有用(例如车牌等);
-
blocklist (string) – 字符的块子集。如果给定了允许列表,则此参数将被忽略。
-
detail (int, default = 1) – 将此设置为 0 以进行简单输出;
-
paragraph (bool, default = False) – 将结果合并到段落中;
-
min_size (int, default = 10) – 过滤文本框小于最小值(以像素为单位);
-
rotation_info (list, default = None) – 允许 EasyOCR 旋转每个文本框并返回具有最佳置信度分数的文本框。符合条件的值为 90、180 和 270。例如,对所有可能的文本方向尝试 [90, 180 ,270]。
-
contrast_ths (float, default = 0.1) – 对比度低于此值的文本框将被传入模型 2 次。首先是原始图像,其次是对比度调整为“adjust_contrast”值。结果将返回具有更高置信度的那个;
-
adjust_contrast (float, default = 0.5) – 低对比度文本框的目标对比度级别。
-
text_threshold (float, default = 0.7) – 文本置信度阈值
-
low_text (float, default = 0.4) – 文本下限分数
-
link_threshold (float, default = 0.4) – 链接置信度阈值
-
canvas_size (int, default = 2560) – 最大图像尺寸。大于此值的图像将被缩小。
-
mag_ratio (float, default = 1) – 图像放大率
-
slope_ths (float, default = 0.1) – 考虑合并的最大斜率 (delta y/delta x)。低值意味着不会合并平铺框。
-
ycenter_ths (float, default = 0.5) – y 方向的最大偏移。不应该合并不同级别的框。
-
height_ths (float, default = 0.5) – 盒子高度的最大差异。不应合并文本大小非常不同的框。
-
width_ths (float, default = 0.5) – 合并框的最大水平距离。
-
add_margin (float, default = 0.1) – 将边界框向所有方向扩展某个值。这对于具有复杂脚本的语言(例如泰语)很重要。
-
x_ths (float, default = 1.0) – 当段落=True 时合并文本框的最大水平距离。
-
y_ths (float, default = 0.5) – 当段落 = True 时合并文本框的最大垂直距离。
四、识别模型
4.1、训练识别模型
4.2、使用自定义的识别模型
五、使用
5.1、基本使用1
$ easyocr -l ch_sim en -f chinese.jpg --detail=1 --gpu=True
5.2、基本使用2
import easyocr reader = easyocr.Reader( lang_list=['ch_sim', 'en'], # 需要导入的语言识别模型,可以传入多个语言模型,其中英语模型en可以与其他语言共同使用 gpu=False, # 默认为True download_enabled=True # 默认为True,如果 EasyOCR 无法找到模型文件,则启用下载 ) result = reader.readtext('id_card.jpg', detail=1 ) # 图片可以传入图片路径、也可以传入图片链接。但推荐传入图片路径,会提高识别速度。包含中文会出错。设置detail=0可以简化输出结果,默认为1 print(result) readtext 返回的列表中,每个元素都是一个元组,内含三个信息:位置、文字、置信度: [ ([[27, 37], [341, 37], [341, 79], [27, 79]], '姓 名 爱新觉罗 。玄烨', 0.32619), ([[29, 99], [157, 99], [157, 135], [29, 135]], '性 别 男', 0.1559), ([[180, 95], [284, 95], [284, 131], [180, 131]], '民蔟满', 0.93509), ([[30, 152], [94, 152], [94, 182], [30, 182]], '出 生', 0.10449), ([[110, 152], [344, 152], [344, 184], [110, 184]], '1654 年54日', 0.), ([[29, 205], [421, 205], [421, 243], [29, 243]], '住 址 北京市东城区景山前街4号', 0.01117), ([[105, 251], [267, 251], [267, 287], [105, 287]], '紫禁城乾清宫', 0.05053), ([[32, 346], [200, 346], [200, 378], [32, 378]], '公民身份证号码', 0.), ([[218, 348], [566, 348], [566, 376], [218, 376]], '0000042', 0.5785) ] detail=0,从而只返回文字内容: ['姓 名 爱新觉罗 。玄烨', '性 别 男', '民蔟满', '出 生', '1654 年54日', '住 址 北京市东城区景山前街4号', '紫禁城 乾清宫', '公民身份证号码', '0000042']
5.3、基本使用3
六、参考
Jaided AI: EasyOCR install 官网
Jaided AI: EasyOCR model hub 模型下载
GitHub – JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/204235.html原文链接:https://javaforall.net
