ottosmops/pdftotext

从 PDF 中提取文本

v2.0.0 2019-07-24 11:58 UTC

This package is auto-updated.

Last update: 2024-09-21 17:19:18 UTC


README

Software License Latest Stable Version Packagist Downloads

此软件包提供了一个用于从 PDF 提取文本的类。

对于 PHP 5.6,使用版本 1.0.3

  \Ottosmops\Pdftotext\Extract::getText('/path/to/file.pdf') //returns the text from the pdf

要求

该软件包使用 pdftotext。请确保已安装: which pdftotext

有关安装信息,请参阅: poppler-utils

如果找不到已安装的二进制文件(《which pdftotext 命令失败》),您可以在调用 _constructor(见下文)之前传递完整路径,或者在使用类 Extract 之前使用 putenv('PATH=$PATH:/usr/local/bin/:/usr/bin')(带 pdftotext 所在的目录)。

安装

composer require ottosmops/pdftotext

用法

从 PDF 中提取文本

$text = (new Extract())
    ->pdf('file.pdf')
    ->text();

您可以设置二进制文件并指定选项

$text = (new Extract('/path/to/pdftotext'))
    ->pdf('path/to/file.pdf')
    ->options('-layout')
    ->text();

默认选项是: -eol unix -enc UTF-8 -raw

许可

MIT 许可证(MIT)。有关更多信息,请参阅 许可文件