antonizer/pdfparser

Pdf解析库。可以读取并提取PDF文件中的信息。源自https://github.com/smalot/pdfparser

dev-master 2022-08-15 10:35 UTC

This package is auto-updated.

Last update: 2024-09-15 15:04:11 UTC


README

Version CI CS Scrutinizer Code Quality Downloads

smalot/pdfparser是一个独立的PHP包,提供了从PDF文件中提取数据的各种工具。

该库处于活跃维护状态。目前,该库的作者没有进行活跃的开发,但我们欢迎任何增加/扩展功能的pull request!

功能

  • 加载/解析对象和标题
  • 提取元数据(作者、描述等)
  • 从有序页面中提取文本
  • 支持压缩PDF文件
  • 支持MAC OS罗马字符集编码
  • 处理文本部分中的十六进制和八进制编码
  • 创建自定义配置(见CustomConfig.md)。

目前,不支持安全文档和提取表单数据。

许可证

该库遵循LGPLv3许可证

安装

v1版本起,此库需要PHP 7.1+。您可以通过Composer进行安装。

composer require smalot/pdfparser

如果您不能使用Composer,可以包含alt_autoload.php-dist。它将自动包含所有所需的文件。

快速示例

<?php

// Parse PDF file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('/path/to/document.pdf');

$text = $pdf->getText();
echo $text;

更多使用信息请参阅此处

文档

文档位于doc文件夹中。