textualization / ropherta-tokenizer
基于 Roberta-base 词汇表的 GPT3Tokenizer (BPE)
v0.0.7
2024-02-21 00:01 UTC
Requires
- gioni06/gpt3-tokenizer: v1.2.0
- textualization/sentencepiece: v0.0.3
Requires (Dev)
- phpunit/phpunit: ^9.5.8
README
这是一个围绕 GPT3Tokenizer 的包装器,使用 HuggingFace RoBERTa 词汇和合并文件。
请参阅 GPT3 文档 以获取示例用法(或 tests/
下的生成测试用例)。
XLM Tokenizer
要使用多语言版本,需要初始化 SentencePiece 依赖项 并下载额外的模型文件
composer exec -- php -r "require 'vendor/autoload.php'; Textualization\SentencePiece\Vendor::check();"
composer exec -- php -r "require 'vendor/autoload.php'; Textualization\Ropherta\Tokenizer\Vendor::check();"
赞助商
感谢我们的赞助商