README

此工具提供了Apache Tika的PHP绑定，允许从文档、图像和其他格式中提取文本和元数据。

支持两种模式

应用模式：通过命令行界面运行应用JAR
服务器模式：向JSR 311网络服务器发送HTTP请求

服务器模式推荐，因为其速度是应用模式的5倍，但一些共享主机不允许在后台运行进程。

功能

Apache Tika功能的简单类接口
- 文本和HTML提取
- 元数据提取
- OCR识别
标准化文档元数据
支持本地和远程资源
无重量级库依赖

要求

PHP 5.4或更高版本
Apache Tika 1.7或更高版本
Oracle Java或OpenJDK
- Tika至1.9版本需要Java 6
- Tika 1.10或更高版本需要Java 7
Tesseract（OCR识别可选）

安装

使用composer安装

composer require vaites/php-apache-tika

如果您想使用OCR，必须安装Tesseract

Fedora/CentOS: sudo yum install tesseract（在Fedora 22或更高版本上使用dnf代替yum）
Debian/Ubuntu: sudo apt-get install tesseract-ocr
Mac OS X: brew install tesseract（使用Homebrew）

使用方法

谨慎启动Apache Tika服务器[1]

java -jar tika-server-1.10.jar

实例化类

$client = \Vaites\ApacheTika\Client::make('localhost', 9998);           // server mode (default)
$client = \Vaites\ApacheTika\Client::make('/path/to/tika-app.jar');     // app mode

使用类从文档中提取文本

$language = $client->getLanguage('/path/to/your/document');
$metadata = $client->getMetadata('/path/to/your/document');

$html = $client->getHTML('/path/to/your/document');
$text = $client->getText('/path/to/your/document');

或使用它从图像中提取文本

$client = \Vaites\ApacheTika\Client::make($host, $port);
$metadata = $client->getMetadata('/path/to/your/image');

$text = $client->getText('/path/to/your/image');

集成

Symfony2 Bundle

nekulin / php-apache-tika

维护者

详细信息

README

功能

要求

安装

使用方法

集成