smalot/pdfparser

PDF 解析库。能够读取和提取 PDF 文件中的信息。

安装量: 18,037,595

依赖者: 169

建议者: 6

安全: 0

星星: 2,357

关注者: 82

分支: 538

开放问题: 181


README

Version CI CS Scrutinizer Code Quality Downloads

smalot/pdfparser 是一个独立的 PHP 包,提供各种工具从 PDF 文件中提取数据。

此库处于 活跃维护 状态。目前库的作者没有进行活跃的开发,但我们欢迎任何添加/扩展功能的拉取请求!

特性

  • 加载/解析对象和标题
  • 提取元数据(作者、描述、...)
  • 从有序页面中提取文本
  • 支持压缩 PDF 文件
  • 支持 MAC OS Roman 字符编码
  • 处理文本部分中的十六进制和八进制编码
  • 创建自定义配置(参见 CustomConfig.md)。

目前,不支持安全文档和提取表单数据。

许可证

此库遵循 LGPLv3 许可证

安装

由于 v1 版本,此库需要 PHP 7.1+。您可以通过 Composer 安装它。

composer require smalot/pdfparser

如果您不能使用 Composer,您可以包含 alt_autoload.php-dist。它将自动包含所有必需的文件。

快速示例

<?php

// Parse PDF file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('/path/to/document.pdf');

$text = $pdf->getText();
echo $text;

更多信息可以在 此处 找到。

文档

文档可以在 doc 文件夹中找到。