lionguilherme / pdfparser
PDF解析库。可以读取并提取PDF文件中的信息。
dev-master
2022-09-27 15:46 UTC
Requires
- php: >=7.1
- ext-iconv: *
- ext-zlib: *
- symfony/polyfill-mbstring: ^1.18
This package is auto-updated.
Last update: 2024-09-27 20:21:28 UTC
README
smalot/pdfparser
是一个独立的PHP包,提供从PDF文件中提取数据的各种工具。
该库处于 活跃维护 状态。目前该库的作者没有进行活跃的开发,但我们欢迎任何添加/扩展功能的拉取请求!
特性
- 加载/解析对象和标题
- 提取元数据(作者,描述,...)
- 从有序页面中提取文本
- 支持压缩PDF文件
- 支持MAC OS罗马字符编码
- 处理文本部分中的十六进制和八进制编码
- 创建自定义配置(请参阅 CustomConfig.md)。
目前,不支持安全文档和表单数据提取。
许可协议
该库采用 LGPLv3 许可协议。
安装
自 v1 版本起,此库需要PHP 7.1+。您可以通过 Composer 安装它。
composer require smalot/pdfparser
如果无法使用Composer,可以包含 alt_autoload.php-dist
。它将自动包含所有所需的文件。
快速示例
<?php // Parse PDF file and build necessary objects. $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser->parseFile('/path/to/document.pdf'); $text = $pdf->getText(); echo $text;
更多使用信息请参阅此处。
文档
文档可以在 doc 文件夹中找到。