ottosmops / pdftotext
从 PDF 中提取文本
v2.0.0
2019-07-24 11:58 UTC
Requires
- php: >= 7.2
- symfony/process: >=4.2
Requires (Dev)
- phpunit/phpunit: >=8.2
README
此软件包提供了一个用于从 PDF 提取文本的类。
对于 PHP 5.6,使用版本 1.0.3
\Ottosmops\Pdftotext\Extract::getText('/path/to/file.pdf') //returns the text from the pdf
要求
该软件包使用 pdftotext。请确保已安装: which pdftotext
有关安装信息,请参阅: poppler-utils
如果找不到已安装的二进制文件(《which pdftotext 命令失败》),您可以在调用 _constructor(见下文)之前传递完整路径,或者在使用类 Extract 之前使用 putenv('PATH=$PATH:/usr/local/bin/:/usr/bin')(带 pdftotext 所在的目录)。
安装
composer require ottosmops/pdftotext
用法
从 PDF 中提取文本
$text = (new Extract()) ->pdf('file.pdf') ->text();
您可以设置二进制文件并指定选项
$text = (new Extract('/path/to/pdftotext')) ->pdf('path/to/file.pdf') ->options('-layout') ->text();
默认选项是: -eol unix -enc UTF-8 -raw
许可
MIT 许可证(MIT)。有关更多信息,请参阅 许可文件。