nekulin / php-apache-tika
Apache Tika PHP 绑定:从文档和图像(含OCR)中提取文本、元数据等...
0.3.0
2015-12-13 22:50 UTC
Requires
- php: >=5.4.0
- ext-curl: *
Requires (Dev)
- phpunit/phpunit: >=4.8
This package is not auto-updated.
Last update: 2024-09-20 17:47:55 UTC
README
此工具提供了Apache Tika的PHP绑定,允许从文档、图像和其他格式中提取文本和元数据。
支持两种模式
- 应用模式:通过命令行界面运行应用JAR
- 服务器模式:向JSR 311网络服务器发送HTTP请求
服务器模式推荐,因为其速度是应用模式的5倍,但一些共享主机不允许在后台运行进程。
功能
- Apache Tika功能的简单类接口
- 文本和HTML提取
- 元数据提取
- OCR识别
- 标准化文档元数据
- 支持本地和远程资源
- 无重量级库依赖
要求
- PHP 5.4或更高版本
- Apache Tika 1.7或更高版本
- Oracle Java或OpenJDK
- Tika至1.9版本需要Java 6
- Tika 1.10或更高版本需要Java 7
- Tesseract(OCR识别可选)
安装
使用composer安装
composer require vaites/php-apache-tika
如果您想使用OCR,必须安装Tesseract
- Fedora/CentOS:
sudo yum install tesseract
(在Fedora 22或更高版本上使用dnf代替yum) - Debian/Ubuntu:
sudo apt-get install tesseract-ocr
- Mac OS X:
brew install tesseract
(使用Homebrew)
使用方法
谨慎启动Apache Tika服务器[1]
java -jar tika-server-1.10.jar
实例化类
$client = \Vaites\ApacheTika\Client::make('localhost', 9998); // server mode (default)
$client = \Vaites\ApacheTika\Client::make('/path/to/tika-app.jar'); // app mode
使用类从文档中提取文本
$language = $client->getLanguage('/path/to/your/document');
$metadata = $client->getMetadata('/path/to/your/document');
$html = $client->getHTML('/path/to/your/document');
$text = $client->getText('/path/to/your/document');
或使用它从图像中提取文本
$client = \Vaites\ApacheTika\Client::make($host, $port);
$metadata = $client->getMetadata('/path/to/your/image');
$text = $client->getText('/path/to/your/image');