dlindberg / blob-chunk
用于将HTML内容片段分割,以改善搜索索引的工具
0.1.0
2019-03-27 19:48 UTC
Requires
- php: ^7.2
- ext-dom: *
- ext-libxml: *
- ext-mbstring: *
- dlindberg/dom-document-factory: ^1.0
Requires (Dev)
- phpunit/phpunit: ^8.0
- squizlabs/php_codesniffer: ^3.0
This package is auto-updated.
Last update: 2024-09-28 08:16:49 UTC
README
这是一个正在进行的早期作品。本项目的目的是将HTML内容块分割成更小的块,以改善Algolia等搜索设备的索引,因为在这些设备中,原始HTML内容通常太大,无法适应索引限制。
安装
通过Composer
$ composer require dlindberg/blob-chunk
基本用法
$blobChunk = new dlindberg\BlobChunk(); $result = $blobChunk->parse($html);
返回内容块数组。默认情况下,它尝试将列表、表格、标题标签和段落作为单独的元素分离出来。它还将段落分割成句子。该项目具有相当大的扩展性和配置空间;然而,该项目的这一部分仍在进行中。
变更日志
有关最近变更的更多信息,请参阅CHANGELOG。
测试
$ composer test
当前对管理器的测试相当全面。需要对解析器和父类的测试进行改进。
贡献
有关详细信息,请参阅CONTRIBUTING 和 CODE_OF_CONDUCT。
安全
如果您发现任何安全问题,请通过电子邮件dane@lindberg.xyz而不是使用问题跟踪器。
鸣谢
本项目的模板基于 The League of Extraordinary Packages 的 Skeleton 软件包存储库。
许可
MIT许可(MIT)。有关更多信息,请参阅许可文件。