PyMuPDF 1.24.2 Documentation
6.84 MB
565 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
文档介绍了PyMuPDF 1.24.2版本的功能与性能特点,包括文档复制、文本提取和页渲染等方面的性能测试结果。同时,文档记录了各个版本(如1.24.1、1.24.2)的新功能开发和问题修复,展示了其与其他工具(如XPDF、PyPDF2等)的性能对比优势。 | ||
AI总结 | ||
### 总结:PyMuPDF 1.24.2 文档
PyMuPDF 1.24.2 是一个高性能的 Python 库,专为从 PDF 和其他文档中提取、分析、转换和操作数据而设计。以下是该版本文档的核心内容和关键信息的总结:
---
### **1. 性能比较(Performance Comparison Methodology)**
PyMuPDF 在多个方面进行了性能测试,包括文档复制、文本提取和页面渲染。以下是测试结果的要点:
#### **1.1 文档复制(Document Copying)**
- 测试工具:PyMuPDF、PDFrw、PikePDF、PyPDF2
- PyMuPDF 在所有测试文件中表现最优,速度是 PyPDF2 的 162 倍。
- 测试数据:
- PyMuPDF:总时间 3.05 秒
- PyPDF2:总时间 494.04 秒
#### **1.2 文本提取(Text Extraction)**
- 测试工具:PyMuPDF、XPDF、PyPDF2、PDFMiner
- PyMuPDF 的速度远超其他工具,总时间仅 8.01 秒。
- 测试数据:
- PyMuPDF:总时间 8.01 秒
- XPDF:总时间 27.42 秒
- PDFMiner:总时间 227.27 秒
#### **1.3 页面渲染(Page Rendering)**
- 测试工具:PyMuPDF、XPDF、pdf2jpg
- PyMuPDF 在 150 DPI下的渲染速度最快。
- 测试数据:
- PyMuPDF:总时间 6.19 秒
- XPDF:总时间 27.42 秒
- pdf2jpg:总时间 101.64 秒
---
### **2. 更新日志(Change Log)**
#### **2.1 版本 1.24.3(2024-04-xx)**
- 修复问题:
- 可以添加包含交互字段计算的 JavaScript 小部件。
- 修复了 `get_text_blocks` 返回值顺序的文档不一致问题。
- 其他改进:
- 新增方法:`Page.remove_rotation()`。
#### **2.2 版本 1.24.2(2024-04-17)**
- 移除过时的经典实现(`fitz_old`)。
- 修复问题:
- `Document.pages()` 的类型注解错误。
- `Document.metadata` 属性的 setter 错误。
- 其他改进:
- 新增方法:
- `Document.bake()`:使注释和字段成为永久内容。
- `Page.cluster_drawings()`:根据几何位置识别绘图项。
- `Page.apply_redactions()`:新增 `text` 参数。
- `Document.subset_fonts()`:使用 MuPDF 的 `pdf_subset_fonts()` 方法。
- 支持通过切片指定页面号。
- 避免 MuPDF 的警告。
#### **2.3 版本 1.24.1(2024-04-02)**
- 修复问题:
- 红黑置(`apply_redactions`)移动了未被红黑的文本。
- 链接分类更宽松。
- 含大写“ET”的文本未显示为注释。
- 其他改进:
- 升级到 MuPDF-1.24.1。
---
### **3. 总体观点**
- **性能优势**:PyMuPDF 在文档复制、文本提取和页面渲染方面表现显著优于其他工具。
- **功能改进**:1.24.2 及其后续版本新增了多个实用方法,并修复了关键问题,进一步提升了稳定性和功能性。
- **开源与授权**:PyMuPDF 和 MuPDF 可以在 AGPL 开源协议或商业授权下使用。
---
### **关键链接**
- PyMuPDF 主页:[GitHub](https://github.com/zbw-parlai/py-mupdf)
- PyPI 登录页:[PyPI](https://pypi.org/project/PyMuPDF/) |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
558 页请下载阅读 -
文档评分