nekulin/php-apache-tika

Apache Tika PHP 绑定:从文档和图像(含OCR)中提取文本、元数据等...

0.3.0 2015-12-13 22:50 UTC

This package is not auto-updated.

Last update: 2024-09-20 17:47:55 UTC


README

此工具提供了Apache Tika的PHP绑定,允许从文档、图像和其他格式中提取文本和元数据。

支持两种模式

  • 应用模式:通过命令行界面运行应用JAR
  • 服务器模式:向JSR 311网络服务器发送HTTP请求

服务器模式推荐,因为其速度是应用模式的5倍,但一些共享主机不允许在后台运行进程。

功能

  • Apache Tika功能的简单类接口
    • 文本和HTML提取
    • 元数据提取
    • OCR识别
  • 标准化文档元数据
  • 支持本地和远程资源
  • 无重量级库依赖

要求

  • PHP 5.4或更高版本
  • Apache Tika 1.7或更高版本
  • Oracle Java或OpenJDK
    • Tika至1.9版本需要Java 6
    • Tika 1.10或更高版本需要Java 7
  • Tesseract(OCR识别可选)

安装

使用composer安装

composer require vaites/php-apache-tika

如果您想使用OCR,必须安装Tesseract

  • Fedora/CentOS: sudo yum install tesseract(在Fedora 22或更高版本上使用dnf代替yum)
  • Debian/Ubuntu: sudo apt-get install tesseract-ocr
  • Mac OS X: brew install tesseract(使用Homebrew

使用方法

谨慎启动Apache Tika服务器[1]

java -jar tika-server-1.10.jar

实例化类

$client = \Vaites\ApacheTika\Client::make('localhost', 9998);           // server mode (default)
$client = \Vaites\ApacheTika\Client::make('/path/to/tika-app.jar');     // app mode 

使用类从文档中提取文本

$language = $client->getLanguage('/path/to/your/document');
$metadata = $client->getMetadata('/path/to/your/document');

$html = $client->getHTML('/path/to/your/document');
$text = $client->getText('/path/to/your/document');

或使用它从图像中提取文本

$client = \Vaites\ApacheTika\Client::make($host, $port);
$metadata = $client->getMetadata('/path/to/your/image');

$text = $client->getText('/path/to/your/image');

集成