1200字范文 > python-31-提取pdf中的文字

python-31-提取pdf中的文字

时间：2020-03-12 10:07:09

相关推荐

python-31-提取pdf中的文字

(1)Python图像处理之图片文字识别（OCR）

(2)windows下用Python把pdf文件转化为图片

1 OCR与Tesseract

1.1 Tesseract的简介

一、OCR

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition，OCR)。可以实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR 库，或者是在上面进行定制。

二、Tesseract

Tesseract是一个OCR库，目前由Google赞助(Google也是一家以OCR和机器学习技术闻名于世的公司)。Tesseract是目前公认最优秀、最精确的开源OCR系统。

除了极高的精确度，Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以)，也可以识别出任何Unicode字符。

用Tesseract可以识别格式规范的文字，主要具有以下特点：

(1)使用一个标准字体(不包含手写体、草书，或十分“花哨的”字体)。

(2)虽然被复印或拍照，字体还是很清晰，没有多余的痕迹或污点。

(3)排列整齐，没有歪歪斜斜的字。

(4)没有超出图片范围，也没有残缺不全，或紧紧贴在图片的边缘。

1.2 Tesseract的安装

Tesseract的Windows安装包下载地址

下载后双击直接安装即可。

安装目录C:\Program Files\Tesseract-OCR。

安装完后，需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面，则表示Tesseract安装完成且添加到系统变量中。

1.3 Tesseract的使用

1.3.1 识别英文图片

tesseract xxx.png results.txt

1.3.2 识别中文图片

识别简体中文，需要事先安装简体中文语言包，下载地址为：

简体中文语言包下载地址，右键下载即可。

再将chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。

tesseract xxx.png results.txt -l chi_sim

1.4 pytesseract的使用

pytesseract是Tesseract关于Python的接口，可以使用pip install pytesseract安装。安装完后，就可以使用Python调用Tesseract了，不过，还需要一个Python的图片处理模块，可以安装pillow。

import pytesseractfrom PIL import Imagecmd_path = r'C:\Program Files\Tesseract-OCR\tesseract.exe'image_path = r'C:\Users\user\Desktop\2.png'pytesseract.pytesseract.tesseract_cmd = cmd_pathtext = pytesseract.image_to_string(Image.open(image_path),lang="chi_sim")# 去掉字符串中的所有空格和换行符text = text.replace(" ", "").replace("\n","")print(text)

2 提取pdf中的文字

2.1 pdf文件转化为图片

安装库 pip install pymupdf。

# -*- coding: utf-8 -*-import osimport fitzpdf = r"C:\Users\user\Desktop\大型网站技术架构.pdf"doc = fitz.open(pdf)pdf_name = os.path.splitext(pdf)[0]print(pdf_name)print(doc.pageCount)i = 0png_dir = r"C:\Users\user\Desktop\mytest"for pg in range(doc.pageCount):i = i + 1png_name = str(i)+".png"print(i)png_path = os.path.join(png_dir, png_name)page = doc[pg]rotate = int(0)# 每个尺寸的缩放系数为2，这将为我们生成分辨率提高四倍的图像。zoom_x = 2.0zoom_y = 2.0trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pm = page.get_pixmap(matrix=trans, alpha=False)pm.save(png_path)

2.2 批量提取图片文字

import pytesseractfrom PIL import Imageimport oscmd_path = r'C:\Program Files\Tesseract-OCR\tesseract.exe'def image2txt(png_path):pytesseract.pytesseract.tesseract_cmd = cmd_pathtext = pytesseract.image_to_string(Image.open(png_path),lang="chi_sim")# 去掉字符串中的所有空格和换行符text = text.replace(" ", "").replace("\n","")return textpng_dir = r"C:\Users\user\Desktop\mytest"num = len(os.listdir(png_dir))filename = "results.txt"for i in range(num):i = i+1png_name = str(i) + ".png"png_path = os.path.join(png_dir, png_name)re = image2txt(png_path)with open(filename,"a+",encoding="utf8") as fw:fw.write(str(i)+re+"\n")print(i,re)

3 获取PDF文档目录(纲要)

pip install pdfplumber

pip install pymupdf

#-*- coding: utf-8 -*-from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocument# 获得目录(纲要)# 打开一个pdf文件fp = open(r"C:\Users\user\Desktop\大型网站技术架构.pdf", 'rb')parser = PDFParser(fp)document = PDFDocument(parser)# 获得文档的目录(纲要)outlines = document.get_outlines()for (level,title,dest,a,se) in outlines:print(level, title)

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。