Python 办公自动化之 PDF 的详细操作(Python 办公自动化实战：PDF 文件处理详解)

原创

ithorizon 7个月前 (10-21) 阅读数 20 #后端开发

Python 办公自动化实战：PDF 文件处理详解

一、引言

在办公自动化领域，PDF文件处理是一项常见需求。Python作为一种功能强势的编程语言，提供了多种处理PDF文件的库，如PyPDF2、PDFMiner、ReportLab等。本文将详细介绍怎样使用Python进行PDF文件的读取、写入、合并、分割、加密和解密等操作。

二、环境准备

首先，确保安装了Python环境。然后，安装以下所需的库：

pip install PyPDF2

pip install pdfminer.six

pip install reportlab

三、PDF文件读取

1. 使用PyPDF2读取PDF文件


import PyPDF2
def read_pdf(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfFileReader(file)
        print(f"PDF文件共有{reader.numPages}页")
        for page in range(reader.numPages):
            print(f"第{page+1}页内容：")
            text = reader.getPage(page).extractText()
            print(text)
# 示例
read_pdf('example.pdf')

2. 使用PDFMiner读取PDF文件


from pdfminer.high_level import extract_text
def read_pdf_with_pdfminer(file_path):
    text = extract_text(file_path)
    print(text)
# 示例
read_pdf_with_pdfminer('example.pdf')

四、PDF文件写入

1. 使用PyPDF2写入PDF文件


def write_pdf(file_path, content):
    pdf_writer = PyPDF2.PdfFileWriter()
    pdf_reader = PyPDF2.PdfFileReader(open(file_path, 'rb'))
    
    for page in range(pdf_reader.numPages):
        pdf_writer.addPage(pdf_reader.getPage(page))
    
    pdf_writer.addPage(PyPDF2.PdfPage())
    pdf_writer.getPage(-1).extractText()
    pdf_writer.getPage(-1).drawString(100, 100, content)
    
    with open('output.pdf', 'wb') as output_pdf:
        pdf_writer.write(output_pdf)
# 示例
write_pdf('example.pdf', 'Hello, World!')

2. 使用ReportLab写入PDF文件


from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
def write_pdf_with_reportlab(content):
    canvas = canvas.Canvas("output.pdf", pagesize=letter)
    canvas.drawString(100, 100, content)
    canvas.save()
# 示例
write_pdf_with_reportlab('Hello, World!')

五、PDF文件合并

使用PyPDF2合并PDF文件


def merge_pdfs(file_paths, output_file):
    pdf_writer = PyPDF2.PdfFileWriter()
    for file_path in file_paths:
        pdf_reader = PyPDF2.PdfFileReader(file_path)
        for page in range(pdf_reader.numPages):
            pdf_writer.addPage(pdf_reader.getPage(page))
    with open(output_file, 'wb') as output_pdf:
        pdf_writer.write(output_pdf)
# 示例
merge_pdfs(['example1.pdf', 'example2.pdf'], 'merged.pdf')

六、PDF文件分割

使用PyPDF2分割PDF文件


def split_pdf(file_path, output_dir):
    pdf_reader = PyPDF2.PdfFileReader(file_path)
    for page in range(pdf_reader.numPages):
        pdf_writer = PyPDF2.PdfFileWriter()
        pdf_writer.addPage(pdf_reader.getPage(page))
        with open(f"{output_dir}/page_{page+1}.pdf", 'wb') as output_pdf:
            pdf_writer.write(output_pdf)
# 示例
split_pdf('example.pdf', 'output')

七、PDF文件加密和解密

1. 使用PyPDF2加密PDF文件


def encrypt_pdf(file_path, output_file, password):
    pdf_reader = PyPDF2.PdfFileReader(file_path)
    pdf_writer = PyPDF2.PdfFileWriter()
    for page in range(pdf_reader.numPages):
        pdf_writer.addPage(pdf_reader.getPage(page))
    pdf_writer.encrypt(password)
    with open(output_file, 'wb') as output_pdf:
        pdf_writer.write(output_pdf)
# 示例
encrypt_pdf('example.pdf', 'encrypted.pdf', '123456')

2. 使用PyPDF2解密PDF文件


def decrypt_pdf(file_path, output_file, password):
    pdf_reader = PyPDF2.PdfFileReader(file_path)
    if pdf_reader.isEncrypted:
        pdf_reader.decrypt(password)
    pdf_writer = PyPDF2.PdfFileWriter()
    for page in range(pdf_reader.numPages):
        pdf_writer.addPage(pdf_reader.getPage(page))
    with open(output_file, 'wb') as output_pdf:
        pdf_writer.write(output_pdf)
# 示例
decrypt_pdf('encrypted.pdf', 'decrypted.pdf', '123456')