sastrawi/tokenizer

此包已被废弃且不再维护。未建议替代包。

PHP 库,允许您对印度尼西亚语进行分词。

v0.4.0 2015-01-21 03:45 UTC

This package is not auto-updated.

Last update: 2020-11-09 07:13:57 UTC


README

Build Status Scrutinizer Code Quality Code Coverage Latest Stable Version

Sastrawi Tokenizer 是一个用于对印度尼西亚语进行分词的 PHP 库。

分词

Saya sedang belajar NLP Bahasa Indonesia.

上面的文本可以分词为

["Saya", "sedang", "belajar", "NLP", "Bahasa", "Indonesia", "."]

Sastrawi Tokenizer

  • PHP 库,用于对印度尼西亚语进行 分词
  • 易于与其他 框架 / 集成。
  • 具有简单易用的 API

演示

http://sastrawi.github.io/tokenizer.html

安装方法

Sastrawi Tokenizer 可以通过 Composer 进行安装。

  1. 打开终端(命令行),并将目录切换到您的项目目录。
  2. 下载 Composer,确保 composer.phar 文件位于该目录中。
  3. 将 Sastrawi Sentence Detector 添加到您的 composer.json 文件中
php composer.phar require sastrawi/tokenizer:0.*

如果您还不了解如何使用 Composer,请阅读 Composer 入门指南

使用方法

通过 PHP 代码

将以下代码复制到您的项目目录中。然后运行该文件。

<?php

// demo.php

// include composer autoloader
require_once __DIR__ . '/vendor/autoload.php';

$tokenizerFactory  = new \Sastrawi\Tokenizer\TokenizerFactory();
$tokenizer = $tokenizerFactory->createDefaultTokenizer();

$tokens = $tokenizer->tokenize('Saya membeli barang seharga Rp 5.000 di Jl. Prof. Soepomo no. 67.');

var_dump($tokens);

通过 CLI(命令行界面)

Sastrawi-tokenize CLI 从 STDIN 读取文本并将分词写入 STDOUT。

$ echo Saya sedang belajar NLP Bahasa Indonesia. | php vendor/bin/sastrawi-tokenize

要显示帮助信息

$ php vendor/bin/sastrawi-tokenize --help

许可证

Sastrawi Tokenizer 在 MIT 许可证(MIT)下发布。此库包含来自 http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia 的印度尼西亚语缩写列表,并使用 Creative Common BY SA 许可。

更多信息