PyPDF2的使用「建议收藏」

PyPDF2的使用「建议收藏」pdf使用Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑在这篇文章中,我们将学习如何做一些pdf的操作:从PDF中提取文字旋转pdf页合并pdf分割pdf向pdf页中添加水印使用简单的python脚本1、安装我们将使用第三方的模块PyPDF2PyPDF2是作为PDF…

大家好,又见面了,我是你们的朋友全栈君。

pdf使用Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑

在这篇文章中,我们将学习如何做一些pdf的操作:

从PDF中提取文字

旋转pdf页

合并pdf

分割pdf

向pdf页中添加水印

使用简单的python脚本

1、安装

我们将使用第三方的模块 PyPDF2


PyPDF2是作为PDF工具包构建的python库,它能够:
  • 提取文档信息(标题,作者,…)
  • 按页拆分文档
  • 逐页合并文档
  • 裁剪页面
  • 合并多个页面到一个页
  • 对pdf文档进行加密解密
  • 等等

安装PyPDF2,在命令行下执行命令:

pip install PyPDF2

注意,这个模块的名字对大小写是敏感的,所以,确保y是小写的,其他字母都是大写的

2、使用模块

– 从pdf中提取文字

import PyPDF2

pdfFile = open('example.pdf','rb')

pdfReader = PyPDF2.PdfFileReader(pdfFile)

print(pdfReader.numPages)

page = pdfReader.getPage(0)

print(page.extractText())

pdfFile.close()

在我的机子上输出如下:

241


Copyright © 201
7
 
by OriginLab Corporation
 
 
All rights reserved. No part of the contents of this book may be reproduced or 
transmitted in any form or by any means without the written permission of OriginLab 
Corporation.
 
 
OriginLab, Origin, 
and LabTalk are either registered trademarks or trademarks of 
OriginLab Corporation. Other product and company names mentioned herein may be 
the trademarks of their respective owners.

我们来逐步分析一下上面的代码

pdfFile = open('example.pdf','rb')

我们以二进制的方式打开example.pdf,并且保存为pdfFile

pdfReader = PyPDF2.PdfFileReader(pdfFile)

我们创建了一个PyPDF2模块中PdfFileReader类的对象,并将pdfFile对象传进去,获取pdfReader对象

print(pdfReader.numPages)

numPages 属性保存了pdf的页数,在我的例子中,numPages = 241

page = pdfReader.getPage(0)

现在,我们创建了一个page对象。pdfReader的getPage方法可以接受页码参数,并返回页面对象。

print(page.extractText())

page的extractText()方法,可以提取出页面中的文字

pdfFile.close()

最后,关闭打开的example.pdf

注意:虽然PDF文件非常适合以一种便于打印和阅读的方式显示文本,但是对于软件来说,将其解析为纯文本并不容易。因此,PyPDF2在从PDF中提取文本时可能会出错,甚至可能根本无法打开某些PDF。不幸的是,你对此无能为力。PyPDF2可能无法处理某些特定的PDF文件。

– 旋转pdf页


import PyPDF2

def PDFrotate(origFileName,newFileName,rotation):
    pdfFile = open(origFileName,'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFile)
    pdfWriter = PyPDF2.PdfFileWriter()

    for page in range(pdfReader.numPages):
        pageObj = pdfReader.getPage(page)
        pageObj.rotateClockwise(rotation)

        pdfWriter.addPage(pageObj)

    newFile = open(newFileName,'wb')
    pdfWrite.write(newFile)

    pdfFile.close()
    newFile.close()

def main():
    origFileName = 'example.pdf'
    
    newFileName = 'rotated_example.pdf'

    rotation = 270

    PDFrotate(origFileName,newFileName,rotation)

if __name__ == "__main__":
    main()

我们看一下关键的代码:

pdfWriter = PyPDF2.PdfFileWriter()

因为我们是将旋转后的页面写入新的pdf,所以首先创建一个PdfFileWriter对象:pdfWriter。

for page in range(pdfReader.numPages):
        pageObj = pdfReader.getPage(page)
        pageObj.rotateClockwise(rotation)

        pdfWriter.addPage(pageObj)

通过pdfReader.numPages,获取pdf的页数,然后进行循环。
循环体中,先创建每一页的对象,然后调用页面对象的rotateClockwise方法,传入的参数是顺时针旋转的度数。最后,旋转后的页面对象作为参数传给pdfWriter的addPage方法。

newFile = open(newFileName,'wb')
    pdfWrite.write(newFile)

    pdfFile.close()
    newFile.close()

打开新的文件,以写的方式,将我们新生成的pdf写入。然后关闭两个文件

– 合并pdf文件

import PyPDF2

def PDFmerge(pdfs,output):
    
    #创建一个pdf文件合并对象
    pdfMerger = PyPDF2.PdfFileMerger()
    
    #逐个添加pdf
    for pdf in pdfs:
        with open(pdf,'rb') as f:
            pdfMerger.append(f)

    #将内存中合并的pdf文件写入
    with open(output,'wb') as f:
        pdfMerger.write(f)

def main():
    #需要合并的pdf名称
    pdfs = ['example.pdf','testexample.pdf']
    
    #合并完成的pdf名称
    output = 'combined_example.pdf'

    #调用PDFmerge函数,进行合并
    PDFmerge(pdfs,output)
if __name__ == '__main__':
    main()

– 给pdf添加水印

import PyPDF2

def add_watermark(wmFile,pageObj):
    #打开水印pdf文件
    wmFileObj = open(wmFile,'rb')
    
    #创建pdfReader对象,把打开的水印pdf传入
    pdfReader = PyPDF2.PdfFileRdader(wmFileObj)
    
    #将水印pdf的首页与传入的原始pdf的页进行合并
    pageObj.mergePage(pdfReader.getPage(0))

    wmFileObj.close()
    return pageObj

def main():
    
    #水印pdf的名称
    watermark = 'watermark.pdf'

    #原始pdf的名称
    origFileName = 'example.pdf'

    #合并后新的pdf名称
    newFileName = 'watermark_example.pdf'

    #打开原始的pdf文件,获取文件指针
    pdfFileObj = open(origFileName,'rb')

    #创建reader对象
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

    #创建一个指向新的pdf文件的指针
    pdfWriter = PyPDF2.PdfFileWriter()

    #通过迭代将水印添加到原始pdf的每一页
    for page in range(pdfReader.numPages):
        wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))
        
        #将合并后的即添加了水印的page对象添加到pdfWriter
        pdfWriter.addpage(wPageObj)

    #打开新的pdf文件
    newFile = open(newFileName,'wb')
    #将已经添加完水印的pdfWriter对象写入文件
    pdfWriter.write(newFile)

    #关闭原始和新的pdf
    pdfFileObj.close()
    newFile.close()

if __name__ == '__main__':
    main()

过程大致和旋转的例子一样

wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))

我们通过自定义的add_watermark函数将水印与原始pdf页进行合并。
让我们来观察一下add_watermark函数

wmFileObj = open(wmFile, 'rb')
pdfReader = PyPDF2.PdfFileReader(wmFileObj) 
pageObj.mergePage(pdfReader.getPage(0))
wmFileObj.close()
return pageObj

首先,我们创建了一个pdf reader对象。对于传递的页面对象,我们使用mergePage()函数传递水印,这将在传递的页面对象上覆盖水印。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152393.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Libevent使用样例,从简单到复杂「建议收藏」

    Libevent使用样例,从简单到复杂

    2022年1月20日
    36
  • 联盟卡结合异业联盟,如何建立一个完善的联盟生态会员体系?「建议收藏」

    联盟卡结合异业联盟,如何建立一个完善的联盟生态会员体系?「建议收藏」对于我们所认知的联盟,生态就是联盟生态,也就是说,如果我们要做一个联盟卡,然后通过我们的联盟卡去建立我们的会员。那如何来建立呢?分四个方式来讲。首先第一个方式要建立完善的一个会员体系,把这个会员体系给架构起来。如何成为我们平台的会员,以及说成有平台会员之后可以享受平台的一种权益。再者的话就是如何让我们的会员去帮助我们平台去做裂变,也就是我们经常讨论的一个问题,如何去做分享?那么在这个环节中如何去做一个线上电子权益卡,通过入口让用户可以去购买,或者叫免费卡也行,这个都是由平台去做设定的,开通后可以去享受我们相

    2022年6月15日
    26
  • centos7.0 web服务器搭建「建议收藏」

    centos7.0 web服务器搭建「建议收藏」centos7.0web服务器搭建前言按照先易后难排序,在vmware虚拟机环境下模拟,统一防火墙为Firewall,统一在xshell下操作终端实现搭建.(强烈建议新手安装选择带gui服务器这样终端操作可以复制,分析文件,熟系操作之后可以最小安装(如果没有桌面,用xshell连接操作终端比较方便),我就是进过这样的坑)关于搭建分为三步,第一步配置网络(非虚拟机…

    2022年5月28日
    38
  • Anaconda环境下Tensorflow的安装与卸载

    Anaconda环境下Tensorflow的安装与卸载Anaconda环境下Tensorflow的安装与卸载文章目录Anaconda环境下Tensorflow的安装与卸载一、环境的创建与删除1.查看自己配置的环境2.配置一个新的环境3.进入和退出环境4.删除环境二、包(第三方库)的安装与卸载1.查看安装的包2.安装包3.删除包4.更新包三、tensorflow的安装与卸载1.创建一个tensorflow环境2.激活tensorflow环境3.安装tensorflow4.查看是否安装成功5.查看tensorflow的版本号6.退出tensorflow环境一

    2022年7月11日
    20
  • rstudio安装后打不开_r语言和rstudio的安装

    rstudio安装后打不开_r语言和rstudio的安装1、r语言的下载地址TheComprehensiveRArchiveNetwork​cran.r-project.org2、安装:按着提醒直接下一步,路径不用改,默认的就可以,但是不可以出现中文,64位系统就全选,32位系统不能选64位系统,一个是32位一个是64位。3、下载RStudio安装包RStudio​www.rstudio.com免费的4、安装rstudio跟着提醒点击下一步,安…

    2022年6月27日
    322
  • idea2022激活码有效期很短_最新在线免费激活

    (idea2022激活码有效期很短)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年3月31日
    201

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号