hortf / pdftableparser
Pdf 解析库。可以读取并提取 PDF 文件中的信息。它是带有每个 td 的 $ 的原始库
dev-main
2024-08-09 15:25 UTC
Requires
- php: >=7.1
- ext-iconv: *
- ext-zlib: *
- symfony/polyfill-mbstring: ^1.18
This package is not auto-updated.
Last update: 2024-09-21 10:12:19 UTC
README
smalot/pdfparser 是一个独立的 PHP 包,提供各种工具从 PDF 文件中提取数据。
此库处于 活跃维护 状态。目前,此库的作者没有进行活跃的开发,但我们欢迎任何添加/扩展功能的 pull request!
功能
- 加载/解析对象和标题
- 提取元数据(作者、描述等)
- 从有序页面提取文本
- 支持压缩 PDF
- 支持 MAC OS Roman 字符编码
- 处理文本部分中的十六进制和八进制编码
- 创建自定义配置(见 CustomConfig.md)。
目前,不支持安全文档和提取表单数据。
许可证
此库采用 LGPLv3 许可证。
安装
此库需要 PHP 7.1+(从 v1 版本开始)。您可以通过 Composer 安装它
composer require smalot/pdfparser
如果您不能使用 Composer,可以包含 alt_autoload.php-dist。它将自动包含所有所需的文件。
快速示例
<?php
// Parse PDF file and build necessary objects.
$parser = new \hortf\pdftableparser\Parser();
$pdf = $parser->parseFile('/path/to/document.pdf');
$text = $pdf->getText();
echo $text;
更多信息请参阅 这里。
文档
文档可以在 doc 文件夹中找到。
