silverstripe / textextraction

SilverStripe CMS 的文本提取 API（通常与 'fulltextsearch' 模块一起使用）

维护者

详细信息

github.com/silverstripe/silverstripe-textextraction

安装: 127,153

开放问题: 2

类型:silverstripe-vendormodule

4.1.1 2024-06-17 00:50 UTC

Requires

Requires (Dev)

Suggests

ext-fileinfo: Improved support for file mime detection

Provides

None

Conflicts

None

Replaces

None

BSD-3-Clause f70ad8119d816242efe89e38f8e8330fd2319dfb

pdf silverstripe fulltext

This package is auto-updated.

Last update: 2024-09-18 03:33:07 UTC

README

提供文件内容的文本提取 API，可以根据可用性和解析的文件格式连接到不同的提取器引擎。返回的结果总是文件内容的字符串。

通过 FileTextExtractable 扩展，可以将此逻辑用于在 DataObject 子类（通常是 File）上缓存提取的内容。

该模块支持以下文件格式的文本提取

HTML（内置）
PDF（使用 XPDF 或 Solr）
Microsoft Word、Excel、Powerpoint（Solr）
OpenOffice（Solr）
CSV（Solr）
RTF（Solr）
EPub（Solr）
许多其他格式（Tika）

安装

composer require silverstripe/textextraction

文档

问题追踪器

问题在仓库的问题部分跟踪。在提交问题之前，请阅读现有问题以确保您的问题独特。

如果问题看起来像是一个新的错误

创建一个新的问题
描述重现您问题的步骤和预期的结果。单元测试、屏幕截图和屏幕录制在这里可能会有所帮助。
尽可能详细地描述您的环境：Silverstripe 版本、浏览器、PHP 版本、操作系统、任何安装的 Silverstripe 模块。

请直接向 security@silverstripe.org 报告安全问题。请不要在错误追踪器中提交安全问题。

开发和贡献

如果您想对该模块做出贡献，请确保您提出了一个拉取请求，并与模块维护者进行了讨论。