hello-solucoes/pdf-to-text

从 PDF 中提取文本

1.1.1 2019-03-26 15:56 UTC

This package is auto-updated.

Last update: 2024-09-14 00:44:14 UTC


README

Latest Version on Packagist Software License Build Status Quality Score Total Downloads

此包提供了一个类,用于从 PDF 中提取文本。

use Spatie\PdfToText\Pdf;

echo Pdf::getText('book.pdf'); //returns the text from the pdf

Spatie 是一家位于比利时的安特卫普的网页设计公司。您可以在我们的网站上找到我们所有开源项目的概述 在这里

明信片软件

您可以自由使用此包(它是 MIT 许可),但如果它进入了您的生产环境,您需要向我们发送一张您家乡的明信片,注明您正在使用我们的哪个包。

我们的地址是:Spatie,Samberstraat 69D,2060 安特卫普,比利时。

最好的明信片将被发布在我们的网站上的开源页面。

要求

幕后,此包利用 pdftotext。您可以通过发出此命令来验证系统上安装的二进制文件

which pdftotext

如果已安装,它将返回二进制文件的路径。

要安装二进制文件,您可以在 Ubuntu 或 Debian 上使用此命令

apt-get install poppler-utils

如果您在 RedHat 或 CentOS 上,请使用此命令

yum install poppler-utils

安装

您可以通过 composer 安装此包

composer require spatie/pdf-to-text

用法

从 PDF 中提取文本很简单。

$text = (new Pdf())
    ->setPdf('book.pdf')
    ->text();

或者更简单

echo Pdf::getText('book.pdf');

默认情况下,包将假设 pdftotext 命令位于 /usr/bin/pdftotext。如果它位于其他位置,请将其二进制文件路径传递给构造函数

$text = (new Pdf('/custom/path/to/pdftotext'))
    ->setPdf('book.pdf')
    ->text();

或作为 getText 静态方法的第二个参数

echo Pdf::getText('book.pdf', '/custom/path/to/pdftotext');

有时您可能想使用 pdftotext 选项。要这样做,您可以使用 setOptions 方法设置它们。

$text = (new Pdf())
    ->setPdf('table.pdf')
    ->setOptions(['layout', 'r 96'])
    ->text()
;

或作为 getText 静态方法的第三个参数

echo Pdf::getText('book.pdf', null, ['layout', 'opw myP1$$Word']);

变更日志

请参阅 CHANGELOG 了解最近更改的详细信息。

测试

 composer test

贡献

请参阅 CONTRIBUTING 了解详细信息。

安全

如果您发现任何安全相关的问题,请通过电子邮件 freek@spatie.be 而不是使用问题跟踪器。

鸣谢

关于 Spatie

Spatie 是一家位于比利时的安特卫普的网页设计公司。您可以在我们的网站上找到我们所有开源项目的概述 在这里

许可证

MIT 许可证 (MIT)。有关更多信息,请参阅 许可证文件