semji / gpt-3-tokenizer-php
用于 GPT 模型的 PHP 文本分词器
v2.0.0
2023-02-07 09:15 UTC
Requires
- php: ^8.1
- ext-mbstring: *
Requires (Dev)
- friendsofphp/php-cs-fixer: ^3.14
- phpstan/phpstan: ^1.9
- phpunit/phpunit: ^9.5
- rector/rector: ^0.15.12
- symfony/var-dumper: ^6.2
This package is auto-updated.
Last update: 2024-09-21 15:33:21 UTC
README
用于 GPT 模型的 PHP 文本分词器
关于
一个 PHP 工具包,用于将文本分词的方式与 GPT 系列模型处理文本的方式相似。
从 https://github.com/CodeRevolutionPlugins/GPT-3-Encoder-PHP 分支出来,以适应我们的使用,修复错误并添加单元测试。
使用方法
此工具需要 mbstring PHP 扩展才能正确工作(如果分词文本中包含非 ASCII 字符的话):有关如何安装 mbstring 的详细信息,请参阅 此处;还需要 PHP 8.1。
use Semji\GPT3Tokenizer\Encoder; $prompt = "Many words map"; $encoder = new Encoder(); $encoder->encode($prompt);