Python 处理 PDF：PyMuPDF 的安装与使用！("Python操作PDF教程：PyMuPDF安装及使用指南")

原创

ithorizon 7个月前 (10-20) 阅读数 23 #后端开发

Python操作PDF教程：PyMuPDF安装及使用指南

一、PyMuPDF简介

PyMuPDF 是一个强盛的 Python 库，用于处理 PDF 文件。它基于 MuPDF，一个轻量级的 PDF 和 XPS 文档解析器。PyMuPDF 提供了充足的功能，包括读取、写入、合并、分割、旋转和加密 PDF 文件等。

二、PyMuPDF的安装

在起始使用 PyMuPDF 之前，首先需要安装它。以下是在不同操作系统上安装 PyMuPDF 的方法。

2.1 Windows 系统安装

在 Windows 系统中，可以使用 pip 命令来安装 PyMuPDF。首先，确保已经安装了 Python 和 pip。然后在命令提示符（或 PowerShell）中执行以下命令：

pip install PyMuPDF

2.2 macOS 系统安装

在 macOS 系统中，也可以使用 pip 命令来安装 PyMuPDF。打开终端，然后执行以下命令：

pip install PyMuPDF

2.3 Linux 系统安装

在 Linux 系统中，可以使用以下命令安装 PyMuPDF：

pip install PyMuPDF

或者，如果你使用的是 Ubuntu 系统，也可以使用 apt-get 命令安装：

sudo apt-get install python3-pymupdf

三、PyMuPDF的基本使用

下面我们将通过一些示例来展示 PyMuPDF 的基本使用方法。

3.1 打开和读取 PDF 文件

首先，我们需要使用 PyMuPDF 打开一个 PDF 文件。以下是怎样打开和读取 PDF 文件的示例代码：


import fitz  # PyMuPDF 的别名
# 打开 PDF 文件
doc = fitz.open("example.pdf")
# 获取 PDF 文件的页面数量
page_count = len(doc)
# 遍历所有页面并打印每一页的文本内容
for page_num in range(page_count):
    page = doc.load_page(page_num)
    print(page.text)

3.2 提取 PDF 文件中的图片

PyMuPDF 允许我们从 PDF 文件中提取图片。以下是怎样提取 PDF 文件中所有图片的示例代码：


import fitz
# 打开 PDF 文件
doc = fitz.open("example.pdf")
# 遍历所有页面并提取图片
for page_num in range(len(doc)):
    page = doc.load_page(page_num)
    image_list = page.get_images(full=True)
    for img in image_list:
        xref = img[0]
        base_image = doc.extract_image(xref)
        image_bytes = base_image["image"]
        # 保存图片
        with open(f"image_{page_num}_{xref}.png", "wb") as img_file:
            img_file.write(image_bytes)

3.3 添加文本到 PDF 文件

PyMuPDF 允许我们在 PDF 文件中添加文本。以下是怎样在 PDF 文件的每一页添加文本的示例代码：


import fitz
# 打开 PDF 文件
doc = fitz.open("example.pdf")
# 创建一个 PDF 画布对象
canvas = fitz.PDFCanvas(doc)
# 遍历所有页面并添加文本
for page_num in range(len(doc)):
    page = doc.load_page(page_num)
    canvas.set_text_pos(100, 100)  # 设置文本位置
    canvas.write_text("这是添加的文本")  # 写入文本
# 保存修改后的 PDF 文件
doc.save("example_modified.pdf")

四、PyMuPDF的高级使用

除了基本的使用方法，PyMuPDF 还提供了许多高级功能，以下是一些高级应用的示例。

4.1 合并 PDF 文件

我们可以使用 PyMuPDF 来合并多个 PDF 文件。以下是怎样合并两个 PDF 文件的示例代码：


import fitz
# 打开第一个 PDF 文件
doc1 = fitz.open("example1.pdf")
# 打开第二个 PDF 文件
doc2 = fitz.open("example2.pdf")
# 将第二个 PDF 文件的所有页面添加到第一个 PDF 文件中
doc1.insert_pdf(doc2)
# 保存合并后的 PDF 文件
doc1.save("merged.pdf")

4.2 分割 PDF 文件

PyMuPDF 也允许我们分割 PDF 文件。以下是怎样将一个 PDF 文件分割成多个单独页面的示例代码：


import fitz
import os
# 打开 PDF 文件
doc = fitz.open("example.pdf")
# 遍历所有页面并保存为单独的 PDF 文件
for page_num in range(len(doc)):
    # 创建一个新的 PDF 文件
    new_doc = fitz.open()
    new_doc.insert_pdf(doc, from_page=page_num, to_page=page_num)
    
    # 保存新的 PDF 文件
    new_doc.save(f"split_page_{page_num}.pdf")
    new_doc.close()
# 关闭原始 PDF 文件
doc.close()

4.3 加密和解密 PDF 文件

PyMuPDF 还赞成对 PDF 文件进行加密和解密。以下是怎样加密和解密 PDF 文件的示例代码：


import fitz
# 打开 PDF 文件
doc = fitz.open("example.pdf")
# 加密 PDF 文件
doc.encrypt("password")
# 保存加密后的 PDF 文件
doc.save("encrypted.pdf")
# 关闭加密后的 PDF 文件
doc.close()
# 打开加密的 PDF 文件
doc = fitz.open("encrypted.pdf", password="password")
# 解密 PDF 文件
doc.decrypt("password")
# 保存解密后的 PDF 文件
doc.save("decrypted.pdf")
# 关闭解密后的 PDF 文件
doc.close()