README

smalot/pdfparser 是一个独立的 PHP 包，提供各种工具从 PDF 文件中提取数据。

此库处于 活跃维护 状态。目前，此库的作者没有进行活跃的开发，但我们欢迎任何添加/扩展功能的 pull request！

功能

加载/解析对象和标题
提取元数据（作者、描述等）
从有序页面提取文本
支持压缩 PDF
支持 MAC OS Roman 字符编码
处理文本部分中的十六进制和八进制编码
创建自定义配置（见 CustomConfig.md）。

目前，不支持安全文档和提取表单数据。

许可证

此库采用 LGPLv3 许可证。

安装

此库需要 PHP 7.1+（从 v1 版本开始）。您可以通过 Composer 安装它

composer require smalot/pdfparser

如果您不能使用 Composer，可以包含 alt_autoload.php-dist。它将自动包含所有所需的文件。

快速示例

<?php

// Parse PDF file and build necessary objects.
$parser = new \hortf\pdftableparser\Parser();
$pdf = $parser->parseFile('/path/to/document.pdf');

$text = $pdf->getText();
echo $text;

更多信息请参阅这里。

文档

文档可以在 doc 文件夹中找到。

hortf / pdftableparser

维护者

详细信息

README

功能

许可证

安装

快速示例

文档