jbpapp/pdf-to-text

使用pdf-to-text二进制从PDF文件中提取文本。

2.0 2019-02-24 22:58 UTC

This package is auto-updated.

Last update: 2024-09-25 12:22:39 UTC


README

使用PHP 5.6读取PDF文件(基于spatie/pdf-to-text包)

此包是PHP 5.6+的Spatie PDF To Text包的分支。如果您使用PHP7,请使用原始包。

此包提供了一个类来从PDF中提取文本。

 \JBPapp\PdfToText\Pdf::getText('book.pdf'); //returns the text from the pdf

需求

幕后,此包利用了pdftotext。您可以通过运行以下命令来验证系统上安装的二进制文件:

which pdftotext

如果已安装,它将返回二进制文件的路径。

您可以在Ubuntu或Debian上使用此命令安装二进制文件:

apt-get install poppler-utils

如果您使用的是RedHat或CentOS,请使用此命令:

yum install poppler-utils

安装

您可以通过composer安装此包

$ composer require spatie/pdf-to-text

用法

从PDF中提取文本很简单。

$text = (new Pdf())
    ->setPdf('book.pdf')
    ->text();

或者更简单

 \JBPapp\PdfToText\Pdf::getText('book.pdf')

默认情况下,包将假定pdftotext位于/usr/bin/pdftotext。如果您使用的是不同的位置,请将二进制文件的路径传递给构造函数

$text = (new Pdf('/custom/path/to/pdftotext'))
    ->setPdf('book.pdf')
    ->text();

或作为getText函数的第二个参数

 \JBPapp\PdfToText\Pdf::getText('book.pdf', '/custom/path/to/pdftotext')

变更日志

有关最近更改的更多信息,请参阅CHANGELOG

测试

$ composer test

贡献

有关详细信息,请参阅CONTRIBUTING

安全

如果您发现任何安全问题,请通过电子邮件freek@spatie.be而不是使用问题跟踪器。

致谢

许可

MIT许可(MIT)。有关更多信息,请参阅许可文件