coderevolutionplugins / gpt-3-encoder-php
PHP BPE 文本编码器/解码器,用于 GPT-2 / GPT-3
dev-main
2023-03-14 11:28 UTC
Requires
- php: >=5.6
This package is auto-updated.
Last update: 2024-09-14 15:16:34 UTC
README
PHP BPE 文本编码器/解码器,用于 GPT-2 / GPT-3
关于
GPT-2 和 GPT-3 使用字节对编码将文本转换为一系列整数,以输入模型。这是一个 OpenAI 原始 Python 编码器和解码器的 PHP 实现,可以在这里找到。编写此编码器的灵感主要来自于这个编码器的 NodeJS 版本,可以在这里找到。
您可以通过比较此脚本生成的输出与OpenAI 官方标记器页面的输出来测试结果。
这个特定的编码器和解码器用于Aiomatic WordPress 插件,以计算将字符串发送到 OpenAI API 时将使用的标记数量。在我的网站上查看我的更多作品。
用法
此工具需要 mbstring PHP 扩展才能正确运行(如果标记化文本中存在非 ASCII 字符):如何安装 mbstring 的详细信息
$prompt = "Many words map to one token, but some don't: indivisible. Unicode characters like emojis may be split into many tokens containing the underlying bytes: 🤚🏾 Sequences of characters commonly found next to each other may be grouped together: 1234567890"; $token_array = gpt_encode($prompt); $original_text = gpt_decode($token_array);