pear / text_languagedetect
从文本样本中识别人类语言
v1.0.2
2023-02-27 20:54 UTC
Requires (Dev)
- phpunit/phpunit: 8.*|9.*
Suggests
- ext-mbstring: May require the mbstring PHP extension
This package is auto-updated.
Last update: 2024-08-28 00:19:52 UTC
README
PHP 库,用于从文本样本中识别人类语言。为每个语言返回置信度分数。
安装
PEAR
$ pear install Text_LanguageDetect
Composer
$ composer require pear/text_languagedetect
使用方法
也可以查看 docs/
目录中的示例和 官方文档。
语言检测
简单语言检测
<?php require_once 'Text/LanguageDetect.php'; $text = 'Was wäre, wenn ich Ihnen das jetzt sagen würde?'; $ld = new Text_LanguageDetect(); $language = $ld->detectSimple($text); echo $language; //output: german
显示最可能的三个语言及其置信度分数
<?php require_once 'Text/LanguageDetect.php'; $text = 'Was wäre, wenn ich Ihnen das jetzt sagen würde?'; $ld = new Text_LanguageDetect(); //3 most probable languages $results = $ld->detect($text, 3); foreach ($results as $language => $confidence) { echo $language . ': ' . number_format($confidence, 2) . "\n"; } //output: //german: 0.35 //dutch: 0.25 //swedish: 0.20 ?>
语言代码
而不是返回完整的语言名称,可以返回 ISO 639-2 的两字母和三字母代码
<?php require_once 'Text/LanguageDetect.php'; $ld = new Text_LanguageDetect(); //will output the ISO 639-1 two-letter language code // "de" $ld->setNameMode(2); echo $ld->detectSimple('Das ist ein kleiner Text') . "\n"; //will output the ISO 639-2 three-letter language code // "deu" $ld->setNameMode(3); echo $ld->detectSimple('Das ist ein kleiner Text') . "\n"; ?>
支持的语言
- 阿尔巴尼亚语
- 阿拉伯语
- 阿塞拜疆语
- 孟加拉语
- 保加利亚语
- 宿务语
- 克罗地亚语
- 捷克语
- 丹麦语
- 荷兰语
- 英语
- 爱沙尼亚语
- 波斯语
- 芬兰语
- 法语
- 德语
- 豪萨语
- 夏威夷语
- 印地语
- 匈牙利语
- 冰岛语
- 印度尼西亚语
- 意大利语
- 哈萨克语
- 吉尔吉斯语
- 拉丁语
- 拉脱维亚语
- 立陶宛语
- 马其顿语
- 蒙古语
- 尼泊尔语
- 挪威语
- 普什图语
- 皮金语
- 波兰语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 塞尔维亚语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 西班牙语
- 斯瓦希里语
- 瑞典语
- 他加禄语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 威尔士语
链接
- 主页
- http://pear.php.net/package/Text_LanguageDetect
- 错误跟踪器
- http://pear.php.net/bugs/search.php?cmd=display&package_name[]=Text_LanguageDetect
- 文档
- http://pear.php.net/package/Text_LanguageDetect/docs
- 单元测试状态
https://travis-ci.org/pear/Text_LanguageDetect
备注
数据从哪里来的?
我不记得我从哪里得到了原始数据集。这只是每个支持语言中3字母组合的频率。它可能来自每个语言的一些随机维基百科页面。