markfullmer/porter2

使用英语Porter 2算法进行词干提取

1.0 2017-05-12 22:10 UTC

This package is auto-updated.

Last update: 2024-09-04 09:01:37 UTC


README

Circle CI GitHub license

一个用于使用英语Porter 2算法进行词干提取的PHP库。

Screenshot of Conversion

背景

词干提取器接收一个给定的词,并遵循一组规则将其简化为可用于搜索索引的词干(与实际词根相反)。例如,aggravateaggravatedaggravates都简化为"aggrav",从而在这些词之间创建共同点。

Martin Porter的英语(Porter 2)算法在原始Porter词干提取器的基础上进行了改进,具体描述见此处

基本用法

包含的/demo/index.php文件包含转换表演示。

通过您喜欢的任何方法(例如,userequire)使您的代码知道Porter2

然后将文本字符串传递给类

$text = Porter2::stem('consistently');
echo $text; // consist

$text = Porter2::stem('consisting');
echo $text; // consist

$text = Porter2::stem('consistency');
echo $text; // consist

词干提取资源

测试

一个包含29,000个单词及其预期词干的验证列表可以运行(通过composer install后使用phpunit)。