dlindberg/blob-chunk

用于将HTML内容片段分割,以改善搜索索引的工具

0.1.0 2019-03-27 19:48 UTC

This package is auto-updated.

Last update: 2024-09-28 08:16:49 UTC


README

Latest Version on Packagist Software License Build Status Coverage Status Quality Score Total Downloads

这是一个正在进行的早期作品。本项目的目的是将HTML内容块分割成更小的块,以改善Algolia等搜索设备的索引,因为在这些设备中,原始HTML内容通常太大,无法适应索引限制。

安装

通过Composer

$ composer require dlindberg/blob-chunk

基本用法

$blobChunk = new dlindberg\BlobChunk();
$result = $blobChunk->parse($html);

返回内容块数组。默认情况下,它尝试将列表、表格、标题标签和段落作为单独的元素分离出来。它还将段落分割成句子。该项目具有相当大的扩展性和配置空间;然而,该项目的这一部分仍在进行中。

变更日志

有关最近变更的更多信息,请参阅CHANGELOG

测试

$ composer test

当前对管理器的测试相当全面。需要对解析器和父类的测试进行改进。

贡献

有关详细信息,请参阅CONTRIBUTINGCODE_OF_CONDUCT

安全

如果您发现任何安全问题,请通过电子邮件dane@lindberg.xyz而不是使用问题跟踪器。

鸣谢

本项目的模板基于 The League of Extraordinary PackagesSkeleton 软件包存储库。

许可

MIT许可(MIT)。有关更多信息,请参阅许可文件