akecul/pdfparser

基于smalot/pdfparser库分支。修复了某些中文文本的解码错误。

v2.2.1.1 2022-06-10 08:11 UTC

README

修复了某些中文文本的解码错误;

PDF 解析器

Version CI CS Scrutinizer Code Quality Downloads

ake/pdfparser是从smalot/pdfparser分支出来的。它是一个独立的PHP包,提供各种工具从PDF文件中提取数据。

该库正在积极维护中。目前该库的作者没有进行活跃的开发,但我们欢迎任何添加/扩展功能的拉取请求!

功能

  • 加载/解析对象和标题
  • 提取元数据(作者、描述、...)
  • 从有序页面中提取文本
  • 支持压缩PDF
  • 支持MAC OS Roman字符编码
  • 处理文本部分中的十六进制和八进制编码
  • 创建自定义配置(参见CustomConfig.md)。

目前不支持安全文档和表单数据提取。

许可证

此库受LGPLv3许可证保护。

安装

此库从v1开始需要PHP 7.1+。您可以通过Composer安装它。

composer require ake/pdfparser

如果您不能使用Composer,您可以包含alt_autoload.php-dist。它将自动包含所有必需的文件。

快速示例

<?php

// Parse PDF file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('/path/to/document.pdf');

$text = $pdf->getText();
echo $text;

更多使用信息可以在此找到。

文档

文档可以在doc文件夹中找到。