sastrawi/sentence-detector

此包已废弃且不再维护。未建议替代包。

PHP 库,用于检测印度尼西亚语中的句子。

v1.1.0 2014-11-30 13:27 UTC

This package is not auto-updated.

Last update: 2020-11-09 08:10:05 UTC


README

Sastrawi Sentence Detector 是一个用于进行句子检测的 PHP 库。

开发 主分支 版本发布 统计数据
Build Status Code Coverage Scrutinizer Code Quality Build Status Latest Stable Version Total Downloads

句子检测器

印度尼西亚是世界上第四人口大国。根据 来源,2013年,超过6400万Facebook用户来自印度尼西亚。

在日常生活中,印度尼西亚互联网用户使用印度尼西亚语作为主要语言。因此,开发者开始需要软件来分析印度尼西亚语的文本。分析的一个阶段是句子检测或句子分割,即把文本分割成句子,例如

Saya sedang belajar NLP Bahasa Indonesia. Saya sedang melakukan segmentasi kalimat.

上面的文本包含2个句子,即

- Saya sedang belajar NLP Bahasa Indonesia.
- Saya sedang melakukan segmentasi kalimat.

看起来很简单,直到出现以下句子

Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11. Kapan saya harus ke sana?

上面的文本包含2个句子,即

- Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11.
- Kapan saya harus ke sana?

Sastrawi Sentence Detector

  • PHP 库 用于在印度尼西亚语中进行 句子分割
  • 易于与其他 框架 / 集成。
  • 拥有简单易用的 API
  • 灵感来源于 Apache OpenNLP。

演示

http://sastrawi.github.io/sentence-detector.html

安装方法

Sastrawi Sentence Detector 可以通过 Composer 安装。

  1. 打开终端(命令行)并将光标移至您的项目目录。
  2. 下载 Composer,使文件 composer.phar 位于该目录。
  3. 将 Sastrawi Sentence Detector 添加到您的 composer.json 文件中
php composer.phar require sastrawi/sentence-detector:~1

如果您还不了解如何使用 Composer,请阅读 Composer 入门指南

使用方法

将以下代码复制到您的项目目录中,然后运行该文件。

<?php

// demo.php

// include composer autoloader
require_once __DIR__ . '/vendor/autoload.php';

// create sentence detector
$sentenceDetectorFactory = new \Sastrawi\SentenceDetector\SentenceDetectorFactory();
$sentenceDetector = $sentenceDetectorFactory->createSentenceDetector();

// detect sentence
$text = 'Saya belajar NLP Bahasa Indonesia. Saya sedang belajar melakukan segmentasi kalimat.';
$sentences = $sentenceDetector->detect($text);

foreach ($sentences as $i => $sentence) {
    echo "$i : $sentence<br />\n";
}

许可证

Sastrawi Sentence Detector 在 MIT 许可证(MIT)下发布。该库包含来自 http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia 的印度尼西亚语缩写列表,并带有 Creative Common BY SA 许可证。

更多信息