ukkz/php-mecab-wrapper

meCab 的包装类。

1.1 2018-10-29 04:24 UTC

This package is auto-updated.

Last update: 2024-09-29 05:08:34 UTC


README

PHP 的 MeCab 包装库。

Build Status

安装

composer require ukkz/php-mecab-wrapper

  • 内部只是简单地执行 mecab 命令,因此请参考官方说明安装 MeCab,并在命令行中确保 MeCab 可以正常执行。
$ echo "カツサンドはパンが両側からカロリーを押しつぶすから0カロリーである" | mecab
カツサンド      名詞,固有名詞,一般,*,*,*,カツサンド,カツサンド,カツサンド
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
パン    名詞,一般,*,*,*,*,パン,パン,パン
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
両側    名詞,一般,*,*,*,*,両側,リョウガワ,リョーガワ
から    助詞,格助詞,一般,*,*,*,から,カラ,カラ
カロリー        名詞,一般,*,*,*,*,カロリー,カロリー,カロリー
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
押しつぶす      動詞,自立,*,*,五段・サ行,基本形,押しつぶす,オシツブス,オシツブス
から    助詞,接続助詞,*,*,*,*,から,カラ,カラ
0       名詞,数,*,*,*,*,*
カロリー        名詞,接尾,助数詞,*,*,*,カロリー,カロリー,カロリー
で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある    助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
EOS
  • 推荐使用NEologd作为字典(但测试使用的是标准的ipadic-0.996)。

用法

MeCab\Sentence

$mecab_sentence_class = new MeCab\Sentence("解析したい日本語文章", 辞書ディレクトリのパス);
$mecab_word_class_generator = $mecab_sentence_class->getWord();

foreach ($mecab_word_class_generator as $mecab_word_class) {
    // 形態素ごとの処理など
    echo $mecab_word_class . '/';
}
// 出力は "解析/し/たい/日本語/文章/" となります。

getWord() 方法返回 MeCab\Word 类的生成器。
如果处理起来不方便,可以使用 getAllWords() 获取 MeCab\Word 类的数组。
构造函数的第二个参数可以指定想要使用的字典(可选)。

MeCab\Word

除了 classes() 方法之外,其他所有方法都返回字符串。

$mecab_word_class->class();         // 品詞: 動詞・名詞など
$mecab_word_class->classes();       // 品詞の下位分類(配列)
$mecab_word_class->type();          // 活用型: サ行変格・ラ行五段など
$mecab_word_class->form();          // 活用形: 連用形・基本形など
$mecab_word_class->base();          // 原形
$mecab_word_class->kana();          // 読み仮名(カナ)
$mecab_word_class->pronunciation(); // 発音(カナ)

class() 方法返回词性。
classes() 方法得到的数组至少包含一个元素,第一个元素与 class() 的值相同。如果存在词性的下位分类,则最多有 4 个元素。
没有某些信息(如没有活用形等)的方法返回空字符串。

当 echo word 类时,将显示表層形(原始文章中的形式)的字符串。

sample.php

use MeCab\Sentence as MeCabSentence;

require_once('vendor/autoload.php');

// 入力文章
$original_text = '名を聞いて人を知らぬと云うことが随分ある。人ばかりではない。すべての物にある。';
$sample_sentence = new MeCabSentence($original_text);

// すべてカタカナにする
echo $sample_sentence->toKana() . "\n";
# "ナヲキイテヒトヲシラヌトイウコトガズイブンアル。ヒトバカリデハナイ。スベテノモノニアル。"

// 名詞だけ括弧でくくる
foreach ($sample_sentence->getWord() as $sample_word) {
    if ($sample_word->class() === '名詞') {
        echo '「' . $sample_word . '」';
    } else {
        echo $sample_word;
    }
}
# 「名」を聞いて「人」を知らぬと云う「こと」が随分ある。「人」ばかりではない。「すべて」の「物」にある。

要求

版本

待办事项

  • 明确字符编码

许可

MIT 许可证
见 LICENSE.txt .