sastrawi / tokenizer
此包已被废弃且不再维护。未建议替代包。
PHP 库,允许您对印度尼西亚语进行分词。
v0.4.0
2015-01-21 03:45 UTC
Requires
- php: >=5.3
- sastrawi/string-span: ~1
- sastrawi/trka: 0.*
- symfony/console: ~2.1
Requires (Dev)
Suggests
- sastrawi/sastrawi: For stemming Bahasa Indonesia
- sastrawi/sentence-detector: For splitting sentence in Bahasa Indonesia
This package is not auto-updated.
Last update: 2020-11-09 07:13:57 UTC
README
Sastrawi Tokenizer 是一个用于对印度尼西亚语进行分词的 PHP 库。
分词
Saya sedang belajar NLP Bahasa Indonesia.
上面的文本可以分词为
["Saya", "sedang", "belajar", "NLP", "Bahasa", "Indonesia", "."]
Sastrawi Tokenizer
- PHP 库,用于对印度尼西亚语进行 分词。
- 易于与其他 框架 / 包 集成。
- 具有简单易用的 API。
演示
http://sastrawi.github.io/tokenizer.html
安装方法
Sastrawi Tokenizer 可以通过 Composer 进行安装。
- 打开终端(命令行),并将目录切换到您的项目目录。
- 下载 Composer,确保
composer.phar
文件位于该目录中。 - 将 Sastrawi Sentence Detector 添加到您的
composer.json
文件中
php composer.phar require sastrawi/tokenizer:0.*
如果您还不了解如何使用 Composer,请阅读 Composer 入门指南。
使用方法
通过 PHP 代码
将以下代码复制到您的项目目录中。然后运行该文件。
<?php // demo.php // include composer autoloader require_once __DIR__ . '/vendor/autoload.php'; $tokenizerFactory = new \Sastrawi\Tokenizer\TokenizerFactory(); $tokenizer = $tokenizerFactory->createDefaultTokenizer(); $tokens = $tokenizer->tokenize('Saya membeli barang seharga Rp 5.000 di Jl. Prof. Soepomo no. 67.'); var_dump($tokens);
通过 CLI(命令行界面)
Sastrawi-tokenize CLI 从 STDIN 读取文本并将分词写入 STDOUT。
$ echo Saya sedang belajar NLP Bahasa Indonesia. | php vendor/bin/sastrawi-tokenize
要显示帮助信息
$ php vendor/bin/sastrawi-tokenize --help
许可证
Sastrawi Tokenizer 在 MIT 许可证(MIT)下发布。此库包含来自 http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia 的印度尼西亚语缩写列表,并使用 Creative Common BY SA 许可。