1200字范文 > java 获取文件大小_利用百度AI OCR图片识别 Java实现PDF中的图片转换成文字

java 获取文件大小_利用百度AI OCR图片识别 Java实现PDF中的图片转换成文字

时间：2021-02-04 15:36:48

序言：我们在读一些PDF版书籍的时候，如果PDF中不是图片，做起读书笔记的还好；如果PDF中的是图片的话，根本无法编辑，做起笔记来，还是很痛苦的。我是遇到过了。我们搞技术的，当然得自己学着解决现在的痛点。

一. 现状

为了不重复造轮子，当然得看看现在市面上是否有已经实现过的，如果有，那自然是拿来即用。

首先，说说一些在线版的PDF图片转文字，对文件大小有限制为2M(似乎有很多的文件处理都是限制在这个数)，超过了便要收费了。

第二，那就是WPS的PDF图片转文字了。别说大小限制了，直接是收费。

二. 方案实现

2.1 百度AI平台获取AppID, API Key, Secret Key

该平台限制调用次数，作为个人开发者来说，基本上是够用了。

Java SDK文档使用说明: /docs#/OCR-Java-SDK/top

不清楚的，可以去看文档。

2.2 代码实现

逻辑思路：读取PDF文件，然后读取PDF中包含的图片，将图片传给百度AI平台去进行识别，返回结果解析。

第一步：新建一个Demo的Maven工程

省略....(相信大家都会哈)

第二步：引入POM

<?xml version="1.0" encoding="UTF-8"?>4.0.0com.example demo 0.0.1-SNAPSHOTdemo Demo project for pdf图片转换文字喜欢的微信关注公众号：Java技术干货 1.8com.baidu.aip java-sdk 4.8.0org.apache.pdfbox pdfbox-app 2.0.16

第三步：新建一个带有main方法的类

package com.example.demo;import com.baidu.aip.ocr.AipOcr;import org.apache.pdfbox.cos.COSName;import org.apache.pdfbox.pdmodel.*;import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;import org.apache.pdfbox.text.PDFTextStripper;import org.json.JSONObject;import javax.imageio.ImageIO;import java.awt.image.BufferedImage;import java.io.*;import java.nio.ByteBuffer;import java.text.SimpleDateFormat;import java.util.*;import java.util.concurrent.atomic.AtomicInteger;public class DemoApplication { //设置APPID/AK/SK public static final String APP_ID = "你的APP_ID"; public static final String API_KEY = "你的API_KEY"; public static final String SECRET_KEY = "你的SECRET_KEY "; public static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss"; /** * 解析pdf文档信息 * * @param pdfPath pdf文档路径 * @throws Exception */ public static void pdfParse(String pdfPath) throws Exception { InputStream input = null; File pdfFile = new File(pdfPath); PDDocument document = null; try { input = new FileInputStream(pdfFile); //加载 pdf 文档 document = PDDocument.load(input); /** 文档属性信息 **/ PDDocumentInformation info = document.getDocumentInformation(); System.out.println("标题:" + info.getTitle()); System.out.println("主题:" + info.getSubject()); System.out.println("作者:" + info.getAuthor()); System.out.println("关键字:" + info.getKeywords()); System.out.println("应用程序:" + info.getCreator()); System.out.println("pdf 制作程序:" + info.getProducer()); System.out.println("作者:" + info.getTrapped()); System.out.println("创建时间:" + dateFormat(info.getCreationDate())); System.out.println("修改时间:" + dateFormat(info.getModificationDate())); //获取内容信息 PDFTextStripper pts = new PDFTextStripper(); String content = pts.getText(document); System.out.println("内容:" + content); /** 文档页面信息 **/ PDDocumentCatalog cata = document.getDocumentCatalog(); PDPageTree pages = cata.getPages(); System.out.println(pages.getCount()); int count = 1; // 初始化一个AipOcr AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY); // 可选：设置网络连接参数 client.setConnectionTimeoutInMillis(2000); client.setSocketTimeoutInMillis(60000); for (int i = 0; i < pages.getCount(); i++) { PDPage page = (PDPage) pages.get(i); if (null != page) { PDResources res = page.getResources(); Iterable xobjects = res.getXObjectNames(); if(xobjects != null){ Iterator imageIter = xobjects.iterator(); while(imageIter.hasNext()){ COSName key = (COSName) imageIter.next(); if (res.isImageXObject(key)) { try { PDImageXObject image = (PDImageXObject) res.getXObject(key); BufferedImage bimage = image.getImage(); // 将BufferImage转换成字节数组 ByteArrayOutputStream out =new ByteArrayOutputStream(); ImageIO.write(bimage,"png

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。