textualization / sentencepiece
使用FFI和C适配器实现的Google SentencePiece绑定。
v0.0.3
2024-02-14 16:01 UTC
Requires (Dev)
- phpunit/phpunit: ^9.5.8
README
这是一个基于Google SentencePiece的最小封装,用于执行XLMRobertaTokenizer编码方法。
它需要使用附加C包装函数构建的SentencePiece动态库,请参阅[https://github.com/textualization/sentencepiece/]的分支。
下载库的二进制文件
composer exec -- php -r "require 'vendor/autoload.php'; Textualization\SentencePiece\Vendor::check();"
但根据平台和GLIBC,您可能需要自己编译并将其复制到vendor/textualization/sentencepiece/lib
(如果不存在,请创建该文件夹)。有关详细信息,请参阅src/Vendor.php
。
运行测试
要运行测试,您需要按照上述说明安装库。
要全面测试,请下载此文件sentencepiece.bpe.model并将其放置在tests/
中。