ladamalina/lingua-stem-ru

波特词干提取器。从俄语单词中提取词根,无需词典。

dev-master 2017-09-24 06:29 UTC

This package is auto-updated.

Last update: 2024-09-14 17:26:35 UTC


README

从俄语单词中提取词根,无需词典。

波特词干提取器——1980年由马丁·波特发表的一种词干提取算法。原始的词干提取器是为了英语设计的。后来马丁创建了“Snowball”项目,并使用该算法的基本思想,为常见的印欧语系语言编写了词干提取器,包括俄语。

该算法不使用形态学词典,仅通过应用一系列规则,根据语言特征截断词尾和后缀,因此运行速度快,但并不总是完全准确。

使用示例

$stemmer = new LinguaStemRu();
echo $stemmer->stem_word('Автомобиль') . "<br/>";
echo $stemmer->stem_word('Автомобилем') . "<br/>";
echo $stemmer->stem_word('Автомобиля') . "<br/>";

我们将得到三次“汽车”这个词。

$stemmer = new LinguaStemRu();
echo $stemmer->stem_text('Любовь к Родине – это очень сильное чувство.');

结果如下:

爱祖国——这是一种非常强烈的情感。