sastrawi / sentence-detector
此包已废弃且不再维护。未建议替代包。
PHP 库,用于检测印度尼西亚语中的句子。
v1.1.0
2014-11-30 13:27 UTC
Requires
- php: >=5.3
- sastrawi/string-span: ~1
- sastrawi/trka: ~0.1
Requires (Dev)
This package is not auto-updated.
Last update: 2020-11-09 08:10:05 UTC
README
Sastrawi Sentence Detector 是一个用于进行句子检测的 PHP 库。
开发 | 主分支 | 版本发布 | 统计数据 |
---|---|---|---|
句子检测器
印度尼西亚是世界上第四人口大国。根据 来源,2013年,超过6400万Facebook用户来自印度尼西亚。
在日常生活中,印度尼西亚互联网用户使用印度尼西亚语作为主要语言。因此,开发者开始需要软件来分析印度尼西亚语的文本。分析的一个阶段是句子检测或句子分割,即把文本分割成句子,例如
Saya sedang belajar NLP Bahasa Indonesia. Saya sedang melakukan segmentasi kalimat.
上面的文本包含2个句子,即
- Saya sedang belajar NLP Bahasa Indonesia.
- Saya sedang melakukan segmentasi kalimat.
看起来很简单,直到出现以下句子
Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11. Kapan saya harus ke sana?
上面的文本包含2个句子,即
- Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11.
- Kapan saya harus ke sana?
Sastrawi Sentence Detector
- PHP 库 用于在印度尼西亚语中进行 句子分割。
- 易于与其他 框架 / 包 集成。
- 拥有简单易用的 API。
- 灵感来源于 Apache OpenNLP。
演示
http://sastrawi.github.io/sentence-detector.html
安装方法
Sastrawi Sentence Detector 可以通过 Composer 安装。
- 打开终端(命令行)并将光标移至您的项目目录。
- 下载 Composer,使文件
composer.phar
位于该目录。 - 将 Sastrawi Sentence Detector 添加到您的
composer.json
文件中
php composer.phar require sastrawi/sentence-detector:~1
如果您还不了解如何使用 Composer,请阅读 Composer 入门指南。
使用方法
将以下代码复制到您的项目目录中,然后运行该文件。
<?php // demo.php // include composer autoloader require_once __DIR__ . '/vendor/autoload.php'; // create sentence detector $sentenceDetectorFactory = new \Sastrawi\SentenceDetector\SentenceDetectorFactory(); $sentenceDetector = $sentenceDetectorFactory->createSentenceDetector(); // detect sentence $text = 'Saya belajar NLP Bahasa Indonesia. Saya sedang belajar melakukan segmentasi kalimat.'; $sentences = $sentenceDetector->detect($text); foreach ($sentences as $i => $sentence) { echo "$i : $sentence<br />\n"; }
许可证
Sastrawi Sentence Detector 在 MIT 许可证(MIT)下发布。该库包含来自 http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia 的印度尼西亚语缩写列表,并带有 Creative Common BY SA 许可证。