textualization/sentencepiece

使用FFI和C适配器实现的Google SentencePiece绑定。

v0.0.3 2024-02-14 16:01 UTC

This package is auto-updated.

Last update: 2024-09-14 17:06:04 UTC


README

这是一个基于Google SentencePiece的最小封装,用于执行XLMRobertaTokenizer编码方法。

它需要使用附加C包装函数构建的SentencePiece动态库,请参阅[https://github.com/textualization/sentencepiece/]的分支。

下载库的二进制文件

composer exec -- php -r "require 'vendor/autoload.php'; Textualization\SentencePiece\Vendor::check();"

但根据平台和GLIBC,您可能需要自己编译并将其复制到vendor/textualization/sentencepiece/lib(如果不存在,请创建该文件夹)。有关详细信息,请参阅src/Vendor.php

运行测试

要运行测试,您需要按照上述说明安装库。

要全面测试,请下载此文件sentencepiece.bpe.model并将其放置在tests/中。