sunshine-solutions/larachain-token-count

快速助手,用于计算标记

1.0.0 2023-05-31 18:50 UTC

README

GO 使用 https://github.com/yethee/tiktoken-php 👉

以下已被上述内容覆盖 ☝️

Latest Version on Packagist GitHub Tests Action Status GitHub Code Style Action Status Total Downloads

PHP 中的 GPT-3 近似标记计数器

此存储库包含一个 PHP 函数,该函数根据 OpenAI 的 GPT-3 所使用的标记化规则来近似文本字符串的标记数。

GPT-3 是 OpenAI 开发的一种高级语言模型,它以称为标记的块读取文本。GPT-3 中的一个标记可以短至一个字符,长至一个单词(例如,“a”,“apple”)。对于具有更复杂脚本的语言(如中文、日语等),一个字符可能包含多个标记。空格和标点符号也被视为独立的标记。

此处提供的函数提供了一种近似方法,用于估计 GPT-3 可能如何标记给定的字符串,将单词、空格和标点符号作为独立的标记进行计数。这允许您在无需进行 API 调用的同时估算文本字符串中的标记数量,这在监控使用情况或避免不必要的成本时非常有用。

请注意,这是一个简化的近似值,实际的标记化在 GPT-3 的实际实现中可能会有所不同。特别是,如果单词包含特殊字符或非常长,可能会被标记化为多个标记。此外,此方法可能无法准确标记除英语以外的语言,特别是那些使用非拉丁字符的语言。

截至 2021 年 9 月的最新更新,OpenAI 没有提供像 GPT-3 那样准确计算标记的公共方法。因此,此函数是一种估计,而不是保证准确的数量。

安装

您可以通过 composer 安装此包

composer require sundance-solutions/larachain-token-count

用法

use SundanceSolutions\LarachainTokenCount\Facades\LarachainTokenCount;
    
    $text = "Your document text...";
    $results = LarachainTokenCount::count($text);
    expect($results)->toEqual(8);

测试

composer test

变更日志

有关最近更改的更多信息,请参阅 变更日志

贡献

有关详细信息,请参阅 贡献指南

安全漏洞

请查阅 我们的安全策略 了解如何报告安全漏洞。

鸣谢

许可

MIT 许可证 (MIT)。有关更多信息,请参阅 许可文件