ladamalina / lingua-stem-ru
波特词干提取器。从俄语单词中提取词根,无需词典。
dev-master
2017-09-24 06:29 UTC
Requires
- php: >=5.3.0
Requires (Dev)
- codeception/base: ^2.2.3
- codeception/specify: ~0.4.3
- codeception/verify: ~0.3.1
This package is auto-updated.
Last update: 2024-09-14 17:26:35 UTC
README
从俄语单词中提取词根,无需词典。
波特词干提取器——1980年由马丁·波特发表的一种词干提取算法。原始的词干提取器是为了英语设计的。后来马丁创建了“Snowball”项目,并使用该算法的基本思想,为常见的印欧语系语言编写了词干提取器,包括俄语。
该算法不使用形态学词典,仅通过应用一系列规则,根据语言特征截断词尾和后缀,因此运行速度快,但并不总是完全准确。
使用示例
$stemmer = new LinguaStemRu(); echo $stemmer->stem_word('Автомобиль') . "<br/>"; echo $stemmer->stem_word('Автомобилем') . "<br/>"; echo $stemmer->stem_word('Автомобиля') . "<br/>";
我们将得到三次“汽车”这个词。
$stemmer = new LinguaStemRu(); echo $stemmer->stem_text('Любовь к Родине – это очень сильное чувство.');
结果如下:
爱祖国——这是一种非常强烈的情感。