coderevolutionplugins/gpt-3-encoder-php

PHP BPE 文本编码器/解码器,用于 GPT-2 / GPT-3

dev-main 2023-03-14 11:28 UTC

This package is auto-updated.

Last update: 2024-09-14 15:16:34 UTC


README

PHP BPE 文本编码器/解码器,用于 GPT-2 / GPT-3

关于

GPT-2 和 GPT-3 使用字节对编码将文本转换为一系列整数,以输入模型。这是一个 OpenAI 原始 Python 编码器和解码器的 PHP 实现,可以在这里找到。编写此编码器的灵感主要来自于这个编码器的 NodeJS 版本,可以在这里找到。

您可以通过比较此脚本生成的输出与OpenAI 官方标记器页面的输出来测试结果。

这个特定的编码器和解码器用于Aiomatic WordPress 插件,以计算将字符串发送到 OpenAI API 时将使用的标记数量。在我的网站上查看我的更多作品。

用法

此工具需要 mbstring PHP 扩展才能正确运行(如果标记化文本中存在非 ASCII 字符):如何安装 mbstring 的详细信息

$prompt = "Many words map to one token, but some don't: indivisible. Unicode characters like emojis may be split into many tokens containing the underlying bytes: 🤚🏾 Sequences of characters commonly found next to each other may be grouped together: 1234567890";

$token_array = gpt_encode($prompt);

$original_text = gpt_decode($token_array);