1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 调用百度ai接口实现图片文字识别详解

调用百度ai接口实现图片文字识别详解

时间:2019-04-21 04:31:39

相关推荐

调用百度ai接口实现图片文字识别详解

调用百度ai接口实现图片文字识别详解

首先先介绍一下这篇博文是干嘛的,为了不浪费大家时间。公司最近和短视频公司合作,需要监控app的截图上的文字是否符合规范,也就是确保其没有违规的文字。到网上找了一些资料发现百度ai提供这个功能,这篇文章主要就是介绍怎么获取到图片上的文字。接下来进入正题,look down,man:

一、下载项目

1、在浏览器输入网址/或者百度搜索‘百度ai’点击第一个。点击主页的产品服务,看到通用文字识别。如下图所示:

2、点击技术文档,里面有SDK。

3、可以看到在文字识别在的api文档有多个接口,你可以根据你的需求来选择对应的接口。

4、重点是现在这里,看到SDK文档的java语言,因为我用的是java,所以这里就介绍这个了,其他语言也一样选择对应的文档查看就行了。

5、在官方网站下载所需的jar包,你会看到下图所示,选择文字识别,然后下载右边的java SDK的jar包。

6、下载的jar包如图所示:

二、部署项目

1、先将项目导入到你的ide,我这里用的是eclispe。然后去下个jar包,叫做aip-java-sdk-version.jar。version对应的是你之前下载的项目的版本,这里下载aip-java-sdk-4.11.0.zip就好了。你可以直接百度搜索jar包名称,会发现有很多c站的资源可以下,我这里为了方便大家已经上传到了百度网盘,链接/s/1OWyE3s4d9MUWuC8dIbTMSQ、提取码mjiq。将包下下来以后回到项目这里,直接将包复制到你的项目下面,然后右键add build path,或者右键项目Build Path -> Add JARs选择其也可以。

2、因为项目中有用到json-0810.jar和log4j-1.2.17.jar,所以在pom.xml文件加入如下两个依赖:

其中json包是在接收百度ai文字识别接口返回值时用的,log4j是输出日志时用的。如果你不想用这两个依赖。比如想用阿里的fastjson,将代码中的相应部分改掉就好了。

<!-- json依赖 --><dependency><groupId>org.json</groupId><artifactId>json</artifactId><version>0810</version></dependency><!-- /artifact/log4j/log4j --><dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency>

3、你可以看到项目的结构,没错,这是一个springboot项目。

三、调用接口

1、在真正使用百度ai图片文字识别的接口前还需要一个东西,继续回到百度ai的主页。点击下图中的控制台中的文字识别。

2、选择应用列表,点击创建应用,然后填写一些相应的信息就可以创建了,这里我就不一一概述了。

3、创建好了会如下图所示,其中AppId、API Key、Secret Key都是有值的。在这里先说声恭喜啦,你离成功越来越近了。

4、在你的ide中打开之前的项目,在项目中随意建一个文件夹,在文件夹下随意建一个java类。我这里是run文件夹下建的Sample类。

5、然后将以下代码复制到你的Sample类中,我简单做一下说明。APP_ID 、API_KEY 、SECRET_KEY是你之前在控制台创建的,复制过来就可以了。options是设置可以识别的语言,path是你图片的路径,如果你不想设置语言类型,直接传new HashMap<String,String>()就可以了。现在你可以弄张图片测试下了。

import java.util.HashMap;import org.json.JSONObject;import org.springframework.beans.factory.annotation.Autowired;import org.ponent;import com.baidu.aip.ocr.AipOcr;import com.baidu.aip.run.mapper.KeyWordMapper;@Componentpublic class Sample{@Autowiredprivate KeyWordMapper keyWordMapper;// 设置APPID/AK/SKpublic static final String APP_ID = "1632656666";public static final String API_KEY = "SuIze0vOa1BQX9KhooKgtK311Q";public static final String SECRET_KEY = "kXQe85iSiv7TuamRXqbkdSyohIBSdCl227";// 初始化用户对象public static AipOcr init() {// 初始化一个AipOcrAipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);// 可选:设置网络连接参数client.setConnectionTimeoutInMillis(2000);client.setSocketTimeoutInMillis(60000);return client;}public void sample() {// 传入可选参数调用接口HashMap<String, String> options = new HashMap<String, String>();options.put("language_type", "CHN_ENG");options.put("detect_direction", "true");options.put("detect_language", "true");options.put("probability", "true");AipOcr client = init();// 参数为本地图片路径String image = "test.jpg";String path = "C:\\Users\\Lenovo\\Desktop\\图片\\aaa.jpg";JSONObject res = client.basicGeneral(path, options);System.out.println(res.toString());// // 参数为本地图片二进制数组// byte[] file = readImageFile(image);// res = client.basicGeneral(file, options);// System.out.println(res.toString(2));// 通用文字识别, 图片参数为远程url图片// JSONObject res = client.basicGeneralUrl(url, options);// System.out.println(res.toString(2));}}

6、这点是扩展,主要讲讲接口的返回值。返回值是以json格式返回的。经过我的测试发现一共有三种可能的返回值。

一、图片上有字并识别成功:这种情况在json返回值中会包含一个words_result键名,值就是识别到的文字,它是一行一行识别的,所以在words_result里面可能有多个值,键名是words。

二、图片上有字但不出:这种情况是图片上是有字的,但是没有识别出来,返回的words_result里面是空的。比如艺术字。

三、图片格式错误:这种情况是图片上根本就没字或者没有可识别的文字,返回值会包含一个error_code键名,你可以直接通过返回值是否包含其来判断格式是否错误。

好了,结束咯!有什么不明白或者博文中有不对的地方欢迎留言,我会及时回复的,谢谢。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。