pdf文档 PyMuPDF 1.24.2 Documentation

6.84 MB 565 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了PyMuPDF 1.24.2版本的功能与性能特点,包括文档复制、文本提取和页渲染等方面的性能测试结果。同时,文档记录了各个版本(如1.24.1、1.24.2)的新功能开发和问题修复,展示了其与其他工具(如XPDF、PyPDF2等)的性能对比优势。
AI总结
### 总结:PyMuPDF 1.24.2 文档 PyMuPDF 1.24.2 是一个高性能的 Python 库,专为从 PDF 和其他文档中提取、分析、转换和操作数据而设计。以下是该版本文档的核心内容和关键信息的总结: --- ### **1. 性能比较(Performance Comparison Methodology)** PyMuPDF 在多个方面进行了性能测试,包括文档复制、文本提取和页面渲染。以下是测试结果的要点: #### **1.1 文档复制(Document Copying)** - 测试工具:PyMuPDF、PDFrw、PikePDF、PyPDF2 - PyMuPDF 在所有测试文件中表现最优,速度是 PyPDF2 的 162 倍。 - 测试数据: - PyMuPDF:总时间 3.05 秒 - PyPDF2:总时间 494.04 秒 #### **1.2 文本提取(Text Extraction)** - 测试工具:PyMuPDF、XPDF、PyPDF2、PDFMiner - PyMuPDF 的速度远超其他工具,总时间仅 8.01 秒。 - 测试数据: - PyMuPDF:总时间 8.01 秒 - XPDF:总时间 27.42 秒 - PDFMiner:总时间 227.27 秒 #### **1.3 页面渲染(Page Rendering)** - 测试工具:PyMuPDF、XPDF、pdf2jpg - PyMuPDF 在 150 DPI下的渲染速度最快。 - 测试数据: - PyMuPDF:总时间 6.19 秒 - XPDF:总时间 27.42 秒 - pdf2jpg:总时间 101.64 秒 --- ### **2. 更新日志(Change Log)** #### **2.1 版本 1.24.3(2024-04-xx)** - 修复问题: - 可以添加包含交互字段计算的 JavaScript 小部件。 - 修复了 `get_text_blocks` 返回值顺序的文档不一致问题。 - 其他改进: - 新增方法:`Page.remove_rotation()`。 #### **2.2 版本 1.24.2(2024-04-17)** - 移除过时的经典实现(`fitz_old`)。 - 修复问题: - `Document.pages()` 的类型注解错误。 - `Document.metadata` 属性的 setter 错误。 - 其他改进: - 新增方法: - `Document.bake()`:使注释和字段成为永久内容。 - `Page.cluster_drawings()`:根据几何位置识别绘图项。 - `Page.apply_redactions()`:新增 `text` 参数。 - `Document.subset_fonts()`:使用 MuPDF 的 `pdf_subset_fonts()` 方法。 - 支持通过切片指定页面号。 - 避免 MuPDF 的警告。 #### **2.3 版本 1.24.1(2024-04-02)** - 修复问题: - 红黑置(`apply_redactions`)移动了未被红黑的文本。 - 链接分类更宽松。 - 含大写“ET”的文本未显示为注释。 - 其他改进: - 升级到 MuPDF-1.24.1。 --- ### **3. 总体观点** - **性能优势**:PyMuPDF 在文档复制、文本提取和页面渲染方面表现显著优于其他工具。 - **功能改进**:1.24.2 及其后续版本新增了多个实用方法,并修复了关键问题,进一步提升了稳定性和功能性。 - **开源与授权**:PyMuPDF 和 MuPDF 可以在 AGPL 开源协议或商业授权下使用。 --- ### **关键链接** - PyMuPDF 主页:[GitHub](https://github.com/zbw-parlai/py-mupdf) - PyPI 登录页:[PyPI](https://pypi.org/project/PyMuPDF/)
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 558 页请下载阅读 -
文档评分
请文明评论,理性发言.