调用百度ai接口实现图片文字识别详解「建议收藏」

调用百度ai接口实现图片文字识别详解「建议收藏」调用百度ai接口实现图片文字识别详解        首先先介绍一下这篇博文是干嘛的,为了不浪费大家时间。公司最近和短视频公司合作,需要监控app的截图上的文字是否符合规范,也就是确保其没有违规的文字。到网上找了一些资料发现百度ai提供这个功能,这篇文章主要就是介绍怎么获取到图片上的文字。接下来进入正题,往下看man:…

大家好,又见面了,我是你们的朋友全栈君。

调用百度ai接口实现图片文字识别详解

        首先先介绍一下这篇博文是干嘛的,为了不浪费大家时间。公司最近和短视频公司合作,需要监控app的截图上的文字是否符合规范,也就是确保其没有违规的文字。到网上找了一些资料发现百度ai提供这个功能,这篇文章主要就是介绍怎么获取到图片上的文字。接下来进入正题,look down,man:

一、下载项目

        1、在浏览器输入网址http://ai.baidu.com/或者百度搜索‘百度ai’点击第一个。点击主页的产品服务,看到通用文字识别。如下图所示:
在这里插入图片描述

2、点击技术文档,里面有SDK。
在这里插入图片描述

3、可以看到在文字识别在的api文档有多个接口,你可以根据你的需求来选择对应的接口。
在这里插入图片描述

4、重点是现在这里,看到SDK文档的java语言,因为我用的是java,所以这里就介绍这个了,其他语言也一样选择对应的文档查看就行了。
在这里插入图片描述

5、在官方网站下载所需的jar包,你会看到下图所示,选择文字识别,然后下载右边的java SDK的jar包。
在这里插入图片描述

6、下载的jar包如图所示:
在这里插入图片描述

二、部署项目

1、先将项目导入到你的ide,我这里用的是eclispe。然后去下个jar包,叫做aip-java-sdk-version.jar。version对应的是你之前下载的项目的版本,这里下载aip-java-sdk-4.11.0.zip就好了。你可以直接百度搜索jar包名称,会发现有很多c站的资源可以下,我这里为了方便大家已经上传到了百度网盘,链接https://pan.baidu.com/s/1OWyE3s4d9MUWuC8dIbTMSQ、提取码mjiq。将包下下来以后回到项目这里,直接将包复制到你的项目下面,然后右键add build path,或者右键项目Build Path -> Add JARs选择其也可以。
在这里插入图片描述

2、因为项目中有用到json-20160810.jar和log4j-1.2.17.jar,所以在pom.xml文件加入如下两个依赖:
其中json包是在接收百度ai文字识别接口返回值时用的,log4j是输出日志时用的。如果你不想用这两个依赖。比如想用阿里的fastjson,将代码中的相应部分改掉就好了。

	<!-- json依赖 -->
	<dependency>
        <groupId>org.json</groupId>
        <artifactId>json</artifactId>
        <version>20160810</version>
    </dependency>

	<!-- https://mvnrepository.com/artifact/log4j/log4j -->
	<dependency>
	    <groupId>log4j</groupId>
	    <artifactId>log4j</artifactId>
	    <version>1.2.17</version>
	</dependency>

3、你可以看到项目的结构,没错,这是一个springboot项目。
在这里插入图片描述

三、调用接口

1、在真正使用百度ai图片文字识别的接口前还需要一个东西,继续回到百度ai的主页。点击下图中的控制台中的文字识别。
在这里插入图片描述

2、选择应用列表,点击创建应用,然后填写一些相应的信息就可以创建了,这里我就不一一概述了。
在这里插入图片描述

3、创建好了会如下图所示,其中AppId、API Key、Secret Key都是有值的。在这里先说声恭喜啦,你离成功越来越近了。
在这里插入图片描述

4、在你的ide中打开之前的项目,在项目中随意建一个文件夹,在文件夹下随意建一个java类。我这里是run文件夹下建的Sample类。
在这里插入图片描述

5、然后将以下代码复制到你的Sample类中,我简单做一下说明。APP_ID 、API_KEY 、SECRET_KEY是你之前在控制台创建的,复制过来就可以了。options是设置可以识别的语言,path是你图片的路径,如果你不想设置语言类型,直接传new HashMap<String,String>()就可以了。现在你可以弄张图片测试下了。

import java.util.HashMap;
import org.json.JSONObject;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;
import com.baidu.aip.ocr.AipOcr;
import com.baidu.aip.run.mapper.KeyWordMapper;

@Component
public class Sample{
	
	@Autowired
	private KeyWordMapper keyWordMapper;
	
	// 设置APPID/AK/SK
	public static final String APP_ID = "1632656666";
	public static final String API_KEY = "SuIze0vOa1BQX9KhooKgtK311Q";
	public static final String SECRET_KEY = "kXQe85iSiv7TuamRXqbkdSyohIBSdCl227";
	
	// 初始化用户对象
    public static AipOcr init() {
    	// 初始化一个AipOcr
        AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);
        // 可选:设置网络连接参数
        client.setConnectionTimeoutInMillis(2000);
        client.setSocketTimeoutInMillis(60000);
        
        return client;
	}

    public void sample() {
        // 传入可选参数调用接口
        HashMap<String, String> options = new HashMap<String, String>();
        options.put("language_type", "CHN_ENG");
        options.put("detect_direction", "true");
        options.put("detect_language", "true");
        options.put("probability", "true");

        AipOcr client = init();
        
        // 参数为本地图片路径
        String image = "test.jpg";
        String path = "C:\\Users\\Lenovo\\Desktop\\图片\\aaa.jpg";
        JSONObject res = client.basicGeneral(path, options);
        System.out.println(res.toString());

//        // 参数为本地图片二进制数组
//        byte[] file = readImageFile(image);
//        res = client.basicGeneral(file, options);
//        System.out.println(res.toString(2));


        // 通用文字识别, 图片参数为远程url图片
//        JSONObject res = client.basicGeneralUrl(url, options);
//        System.out.println(res.toString(2));

    }
}

6、这点是扩展,主要讲讲接口的返回值。返回值是以json格式返回的。经过我的测试发现一共有三种可能的返回值。
          一、图片上有字并识别成功:这种情况在json返回值中会包含一个words_result键名,值就是识别到的文字,它是一行一行识别的,所以在words_result里面可能有多个值,键名是words。
          二、图片上有字但不出:这种情况是图片上是有字的,但是没有识别出来,返回的words_result里面是空的。比如艺术字。
          三、图片格式错误:这种情况是图片上根本就没字或者没有可识别的文字,返回值会包含一个error_code键名,你可以直接通过返回值是否包含其来判断格式是否错误。

好了,结束咯!有什么不明白或者博文中有不对的地方欢迎留言,我会及时回复的,谢谢。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131424.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux dhcp服务器搭建_如何自己搭建服务器

    linux dhcp服务器搭建_如何自己搭建服务器本篇是关于在Linux服务器上安装并配置DHCP服务器的配置教程!

    2025年7月27日
    4
  • 0基础Java自学之路

    0基础Java自学之路前言最近逛知乎的时候,经常看到有人在问“0基础如何自学Java”、“干了几年**,想转行干Java靠谱吗”等问题。不禁让我回想起了自己当初自学Java的日子,因此在这个周末花了点时间,整理了这篇文章,希望对这些正打算自学Java的或者打算转行Java的人有点帮助。我的自学之路先告诉你们我的自学过程可能让你们有点参考。大三的时候,班主任请了2个已经拿到offer的实验室同学来跟…

    2022年6月20日
    23
  • java的三个开发平台分别是什么_入门金笔推荐

    java的三个开发平台分别是什么_入门金笔推荐**Java开发入门**废话不多说,我今天主要讲的是Sun公司将Java划分的三个技术平台,他们分别是JavaSe、JavaEE、JavaME,接下来针对这三个平台分别进行详细介绍。JavaSE(JavaPlatformStandardEdition)标准版,是为开发普通桌面和商务应用程序提供的解决方案。JavaSE平台包括了java最核心的部分,JavaEE和Java…

    2022年8月23日
    6
  • 程序员喜欢穿格子衫的原因_为什么程序员喜欢穿格子衬衫

    程序员喜欢穿格子衫的原因_为什么程序员喜欢穿格子衬衫点击上方关注我们,让小care关爱你!在互联网时代下,今天的你不用在路边拦车,不用带现金出门,用一个手机解决生活所有的问题。这一切都离不开”程序员”的夜以继日传说,中文互联网有三大杀器:处女座、五仁月饼和格子衬衫,只要集齐它们就可以破碎山河撕裂人伦纵横四海。不知道从什么时候起,格子衬衫已经成为了程序员的代名词,有些时候,就连“程序媛”也无法幸免。(你猜此刻的小姐姐是怎样的表情)那其实你知…

    2022年10月4日
    4
  • 全源最短路径问题采用Floyd算法进行求解_floyd算法求最短路径是贪心吗

    全源最短路径问题采用Floyd算法进行求解_floyd算法求最短路径是贪心吗前言在图论中,在寻路最短路径中除了Dijkstra算法以外,还有Floyd算法也是非常经典,然而两种算法还是有区别的,Floyd主要计算多源最短路径。在单源正权值最短路径,我们会用Dijkstra算法来求最短路径,并且算法的思想很简单—贪心算法:每次确定最短路径的一个点然后维护(更新)这个点周围点的距离加入预选队列,等待下一次的抛出确定。虽然思想很简单,实现起来是非常复杂的,我们需要邻接矩阵(表)储存长度,需要优先队列(或者每次都比较)维护一个预选点的集合。还要用一个boolean数组标记是否已经确定、

    2025年8月12日
    4
  • win10系统显示打印机未连接到服务器,win10系统无法连接到打印机的解决方法

    win10系统显示打印机未连接到服务器,win10系统无法连接到打印机的解决方法很多小伙伴都遇到过win10系统无法连接到打印机的困惑吧,一些朋友看过网上零散的win10系统无法连接到打印机的处理方法,并没有完完全全明白win10系统无法连接到打印机是如何解决的,今天小编准备了简单的解决办法,只需要按照1、右键点击开始菜单,选择弹出菜单中的“控制面板”,2、在控制面板里点击“管理工具”,如果找不到的话先将右上角的查看那方式修改为【小图标】或【大图标】的顺序即可轻松解决…

    2022年6月9日
    71

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号