forest/pdf-to-text

从PDF中提取文本

2.0.4 2019-09-11 14:47 UTC

This package is auto-updated.

Last update: 2024-09-12 02:05:28 UTC


README

本包提供了一个从PDF中提取文本的类。

 \forest\PdfToText\Pdf::getText('book.pdf'); //returns the text from the pdf

要求

在幕后,此包利用了pdftotext。您可以通过执行以下命令来验证系统上安装的二进制文件:

which pdftotext

如果已安装,它将返回二进制文件的路径。

您可以使用以下命令在Ubuntu或Debian上安装二进制文件:

apt-get install poppler-utils

如果您在RedHat或CentOS上,请使用以下命令:

yum install poppler-utils

安装

您可以通过composer安装此包。

$ composer require forest/pdf-to-text

用法

从PDF中提取文本非常简单。

$text = (new Pdf())
    ->setPdf('book.pdf')
    ->text();

或者更简单

 \forest\PdfToText\Pdf::getText('book.pdf')

默认情况下,该包会假定pdftotext位于/usr/bin/pdftotext。如果您使用不同的位置,请在构造函数中传递二进制文件的路径

$text = (new Pdf('/custom/path/to/pdftotext'))
    ->setPdf('book.pdf')
    ->text();

或者作为getText函数的第二个参数

 \forest\PdfToText\Pdf::getText('book.pdf', '/custom/path/to/pdftotext')

变更日志

有关最近更改的更多信息,请参阅变更日志

测试

$ composer test

贡献

有关详细信息,请参阅贡献指南

许可

MIT许可(MIT)。有关更多信息,请参阅许可文件