1200字范文 > pythonpdf识别文字_python – 从PDF中读取字体颜色信息

pythonpdf识别文字_python – 从PDF中读取字体颜色信息

时间：2023-11-04 12:02:38

我正在研究一种分析PDF文件并基于它们生成HTML的软件.有很多事情已经做到这一点,所以我知道这是可能的,我必须出于商业原因编写自己的东西.

我已经设法从PDF中获取所有文本信息,位置,字体,但我正在努力读出文本的颜色.我目前正在使用PDFMiner来分析PDF,但我开始认为我需要编写自己的PDFReader,即便如此,我也无法弄清楚文档的颜色信息在哪里保存！我甚至阅读了PDF规范但找不到我需要的信息.

我已经搜索谷歌,没有快乐.

提前致谢！

解决方法:

使用PDF文件中内容流对象中的g,rg或k运算符之一设置文本和其他填充图形的颜色,如PDF参考手册中的4.5.7颜色运算符一节中所述.

参考手册中的示例G.3简单图形示例显示这些运算符用于描边和填充某些形状(但不是文本).

在自己解析PDF文件时,首先要阅读预告片

在包含文件偏移量的文件的末尾

交叉参考表.该表包含文件偏移量

PDF文件中的每个对象.对象采用带引用的树结构

到其他对象.其中一个对象是

内容流. 3.4文件结构一节对此进行了描述

和3.6参考手册中的文档结构.

可以自己解析PDF文件但是这样

相当多的工作.内容

流可以被压缩,包含对其他对象的引用,

包含注释等,您必须处理所有这些情况.

PDFMiner软件已在读取内容流.也许吧

会更容易扩展PDFMiner来报告颜色

文字呢？

标签：python,pdf

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。