2016 - 2024

感恩一路有你

pdf提取跨页表格python 如何从Python中提取PDF文档信息?

浏览量:2600 时间:2023-06-01 19:00:42 作者:采采

如何从Python中提取PDF文档信息?

好我们可以用Python能完成这项工作。下面就多多分享一下如何用Python解析个PDF文件,将其转为一列关键字。

设置:

本教程我们建议使用的是Python3.6.3,当然了在实际工作中你可以不不使用任何你喜欢的Python版本,只要它接受都用到的库就行。

是需要按装200元以内Python库:

PyPDF2(主要是用于将最简单基于文本的PDF文件转为Python可读的文本)

Textract(应用于将PDF扫描文件转为Python可读的文本)

Nltk(主要用于清理短语、将短语转为关键字)

是可以通过以下命令行安装这些库:

pipinstallPyPDF2

condainstalltextract

pipinstallnltk

这样的我们就安装了解析PDF文件所需的库,你必须确保全你的PDF文件装在你编写脚本所在的文件夹中。

启动编辑器,结束敲代码吧!

目标:导入库

第2步:无法读取PDF文件

第5步:将文本转换的为关键字

现在我们就将手中的PDF文件存放替列表,可以按自己的需要可以使用了。如果想让PDF可搜索,或则电学计算大量文件通过聚类分析,还也可以将我得到的列表保存在电子表格中。

用来Python实现程序PDF内容其他提取包括循环遍历内容。

详细实现参考我们甫义工作室写的文章如下链接:

《Python数据采集-多PDF文档进行关键字数据检索》

_articleamptimestamp1569413004ampreq账号2019092520032301002607708102163DEEampgroup注册id6581260685420790286

如何利用Python操作pdf文件?具体该如何读写?

首先,要安装好插件:pypdf

outputsPdfFileWriter()

#读取pdf文件

outputs1PdfFileReader(file(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.pdf,rb))

((0))

outputStremopen(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.pdf,rw)

#写入结果pdf文件

output.write(outputStrem)

()

#你操作大多数文件类型

#filename,文件路径、名称,如果有,尽量转义或则开头加r,mode加载的模式,r加载,w读取,,

fopen(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.xml,r)

#资源内容并存储在变量里

read()

print(read)

#自动关闭文件,浪费内存

()

#加载pdf文件写入文件新的pdf文件

六花禁爱open(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.pdf,rb)

(0,0)

outputStremopen(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test2.pdf,w)

outputStrem.write(())

Python 文件 pdf PDF PDF文件

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。