sunshine-solutions / larachain-token-count
快速助手,用于计算标记
Requires
- php: ^8.1
- illuminate/contracts: ^10.0
- spatie/laravel-package-tools: ^1.14.0
Requires (Dev)
- laravel/pint: ^1.0
- nunomaduro/collision: ^7.9
- nunomaduro/larastan: ^2.0.1
- orchestra/testbench: ^8.0
- pestphp/pest: ^2.0
- pestphp/pest-plugin-arch: ^2.0
- pestphp/pest-plugin-laravel: ^2.0
- phpstan/extension-installer: ^1.1
- phpstan/phpstan-deprecation-rules: ^1.0
- phpstan/phpstan-phpunit: ^1.0
This package is auto-updated.
Last update: 2024-09-02 01:02:13 UTC
README
GO 使用 https://github.com/yethee/tiktoken-php 👉
以下已被上述内容覆盖 ☝️
PHP 中的 GPT-3 近似标记计数器
此存储库包含一个 PHP 函数,该函数根据 OpenAI 的 GPT-3 所使用的标记化规则来近似文本字符串的标记数。
GPT-3 是 OpenAI 开发的一种高级语言模型,它以称为标记的块读取文本。GPT-3 中的一个标记可以短至一个字符,长至一个单词(例如,“a”,“apple”)。对于具有更复杂脚本的语言(如中文、日语等),一个字符可能包含多个标记。空格和标点符号也被视为独立的标记。
此处提供的函数提供了一种近似方法,用于估计 GPT-3 可能如何标记给定的字符串,将单词、空格和标点符号作为独立的标记进行计数。这允许您在无需进行 API 调用的同时估算文本字符串中的标记数量,这在监控使用情况或避免不必要的成本时非常有用。
请注意,这是一个简化的近似值,实际的标记化在 GPT-3 的实际实现中可能会有所不同。特别是,如果单词包含特殊字符或非常长,可能会被标记化为多个标记。此外,此方法可能无法准确标记除英语以外的语言,特别是那些使用非拉丁字符的语言。
截至 2021 年 9 月的最新更新,OpenAI 没有提供像 GPT-3 那样准确计算标记的公共方法。因此,此函数是一种估计,而不是保证准确的数量。
安装
您可以通过 composer 安装此包
composer require sundance-solutions/larachain-token-count
用法
use SundanceSolutions\LarachainTokenCount\Facades\LarachainTokenCount; $text = "Your document text..."; $results = LarachainTokenCount::count($text); expect($results)->toEqual(8);
测试
composer test
变更日志
有关最近更改的更多信息,请参阅 变更日志。
贡献
有关详细信息,请参阅 贡献指南。
安全漏洞
请查阅 我们的安全策略 了解如何报告安全漏洞。
鸣谢
许可
MIT 许可证 (MIT)。有关更多信息,请参阅 许可文件。