pear/text_languagedetect

从文本样本中识别人类语言

v1.0.2 2023-02-27 20:54 UTC

This package is auto-updated.

Last update: 2024-08-28 00:19:52 UTC


README

PHP 库,用于从文本样本中识别人类语言。为每个语言返回置信度分数。

安装

PEAR

$ pear install Text_LanguageDetect

Composer

$ composer require pear/text_languagedetect

使用方法

也可以查看 docs/ 目录中的示例和 官方文档

语言检测

简单语言检测

<?php
require_once 'Text/LanguageDetect.php';

$text = 'Was wäre, wenn ich Ihnen das jetzt sagen würde?';

$ld = new Text_LanguageDetect();
$language = $ld->detectSimple($text);

echo $language;
//output: german

显示最可能的三个语言及其置信度分数

<?php
require_once 'Text/LanguageDetect.php';

$text = 'Was wäre, wenn ich Ihnen das jetzt sagen würde?';

$ld = new Text_LanguageDetect();
//3 most probable languages
$results = $ld->detect($text, 3);

foreach ($results as $language => $confidence) {
    echo $language . ': ' . number_format($confidence, 2) . "\n";
}

//output:
//german: 0.35
//dutch: 0.25
//swedish: 0.20
?>

语言代码

而不是返回完整的语言名称,可以返回 ISO 639-2 的两字母和三字母代码

<?php
require_once 'Text/LanguageDetect.php';
$ld = new Text_LanguageDetect();

//will output the ISO 639-1 two-letter language code
// "de"
$ld->setNameMode(2);
echo $ld->detectSimple('Das ist ein kleiner Text') . "\n";

//will output the ISO 639-2 three-letter language code
// "deu"
$ld->setNameMode(3);
echo $ld->detectSimple('Das ist ein kleiner Text') . "\n";
?>

支持的语言

  • 阿尔巴尼亚语
  • 阿拉伯语
  • 阿塞拜疆语
  • 孟加拉语
  • 保加利亚语
  • 宿务语
  • 克罗地亚语
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英语
  • 爱沙尼亚语
  • 波斯语
  • 芬兰语
  • 法语
  • 德语
  • 豪萨语
  • 夏威夷语
  • 印地语
  • 匈牙利语
  • 冰岛语
  • 印度尼西亚语
  • 意大利语
  • 哈萨克语
  • 吉尔吉斯语
  • 拉丁语
  • 拉脱维亚语
  • 立陶宛语
  • 马其顿语
  • 蒙古语
  • 尼泊尔语
  • 挪威语
  • 普什图语
  • 皮金语
  • 波兰语
  • 葡萄牙语
  • 罗马尼亚语
  • 俄语
  • 塞尔维亚语
  • 斯洛伐克语
  • 斯洛文尼亚语
  • 索马里语
  • 西班牙语
  • 斯瓦希里语
  • 瑞典语
  • 他加禄语
  • 土耳其语
  • 乌克兰语
  • 乌尔都语
  • 乌兹别克语
  • 越南语
  • 威尔士语

链接

主页
http://pear.php.net/package/Text_LanguageDetect
错误跟踪器
http://pear.php.net/bugs/search.php?cmd=display&package_name[]=Text_LanguageDetect
文档
http://pear.php.net/package/Text_LanguageDetect/docs
单元测试状态

https://travis-ci.org/pear/Text_LanguageDetect

https://travis-ci.org/pear/Text_LanguageDetect.svg?branch=master

备注

数据从哪里来的?

我不记得我从哪里得到了原始数据集。这只是每个支持语言中3字母组合的频率。它可能来自每个语言的一些随机维基百科页面。