smalot / pdfparser
PDF 解析库。能够读取和提取 PDF 文件中的信息。
v2.11.0
2024-08-16 06:48 UTC
Requires
- php: >=7.1
- ext-iconv: *
- ext-zlib: *
- symfony/polyfill-mbstring: ^1.18
- dev-master
- v2.11.0
- v2.10.0
- v2.9.0
- v2.8.0
- v2.8.0-RC2
- v2.8.0-RC1
- v2.7.0
- v2.5.0
- v2.4.0
- v2.3.0
- v2.2.2
- v2.2.1
- v2.2.0
- v2.1.0
- v2.0.1
- v2.0.0
- v1.2.0-RC2
- v1.2.0-RC1
- v1.1.0
- v1.0.2
- v1.0.1
- v1.0.0
- v0.19.0
- v0.18.2
- v0.18.1
- v0.18.0
- v0.17.1
- v0.17.0
- v0.16.2
- 0.16.1
- v0.16.0
- v0.15.1
- v0.15.0
- v0.14.0
- v0.13.3
- v0.13.2
- v0.13.1
- v0.13.0
- v0.12.0
- v0.11
- v0.10.0
- v0.9.26
- v0.9.25
- v0.9.24
- v0.9.23
- v0.9.22
- v0.9.21
- v0.9.20
- v0.9.19
- v0.9.18
- v0.9.17
- v0.9.16
- v0.9.15
- v0.9.14
- v0.9.13
- v0.9.12
- v0.9.11
- v0.9.10
- v0.9.9
- v0.9.8
- v0.9.7
- v0.9.6
- v0.9.5
- v0.9.4
- v0.9.3
- v0.9.2
- v0.9.1
- v0.9.0
- dev-feature/php-8.4-support
- dev-issue/703
- dev-fix/issue-659-gz-uncompress-data-error
This package is auto-updated.
Last update: 2024-09-19 06:03:46 UTC
README
smalot/pdfparser
是一个独立的 PHP 包,提供各种工具从 PDF 文件中提取数据。
此库处于 活跃维护 状态。目前库的作者没有进行活跃的开发,但我们欢迎任何添加/扩展功能的拉取请求!
特性
- 加载/解析对象和标题
- 提取元数据(作者、描述、...)
- 从有序页面中提取文本
- 支持压缩 PDF 文件
- 支持 MAC OS Roman 字符编码
- 处理文本部分中的十六进制和八进制编码
- 创建自定义配置(参见 CustomConfig.md)。
目前,不支持安全文档和提取表单数据。
许可证
此库遵循 LGPLv3 许可证。
安装
由于 v1 版本,此库需要 PHP 7.1+。您可以通过 Composer 安装它。
composer require smalot/pdfparser
如果您不能使用 Composer,您可以包含 alt_autoload.php-dist
。它将自动包含所有必需的文件。
快速示例
<?php // Parse PDF file and build necessary objects. $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser->parseFile('/path/to/document.pdf'); $text = $pdf->getText(); echo $text;
更多信息可以在 此处 找到。
文档
文档可以在 doc 文件夹中找到。