textualization/ropherta-tokenizer

基于 Roberta-base 词汇表的 GPT3Tokenizer (BPE)

v0.0.7 2024-02-21 00:01 UTC

This package is auto-updated.

Last update: 2024-09-21 01:19:44 UTC


README

这是一个围绕 GPT3Tokenizer 的包装器,使用 HuggingFace RoBERTa 词汇和合并文件

请参阅 GPT3 文档 以获取示例用法(或 tests/ 下的生成测试用例)。

XLM Tokenizer

要使用多语言版本,需要初始化 SentencePiece 依赖项 并下载额外的模型文件

composer exec -- php -r "require 'vendor/autoload.php'; Textualization\SentencePiece\Vendor::check();"
composer exec -- php -r "require 'vendor/autoload.php'; Textualization\Ropherta\Tokenizer\Vendor::check();"

赞助商

感谢我们的赞助商