blesta/binary-to-text-php

PHP 二进制到文本编码工具集合。包括 Base32 支持,以及其他更多功能。

2.0.0 2018-10-22 20:15 UTC

This package is auto-updated.

Last update: 2024-09-23 10:26:47 UTC


README

目前,本存储库中只有一个类 Base2n

Base2n 是用于二进制到文本转换的类,它可以处理任意编码方案,并以 2n 表示法表示二进制数据。它可以处理许多标准编码方案的变体,如 Base64Base32。许多二进制到文本编码方案使用固定数量的二进制位来生成每个编码字符。这些方案可以推广为单个算法,此处实现了该算法。

二进制到文本编码通常用于表示在基于文本的协议上安全传输的表示法,并且还有其他几种实际用途。请参见下面的示例。

Base2n 基本用法

使用 Base2n,您可以参数化地定义您的编码方案。让我们实例化一个 Base32 编码器

// RFC 4648 base32 alphabet; case-insensitive
$base32 = new Base2n(5, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ234567', FALSE, TRUE, TRUE);
$encoded = $base32->encode('encode this');
// MVXGG33EMUQHI2DJOM======

构造函数参数

  • string $chars 此字符串指定基字母表。长度必须是 2^$bitsPerCharacter。默认:0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-_

  • boolean $caseSensitive 以区分大小写的方式解码。默认:FALSE

  • boolean $rightPadFinalBits 当剩余的位少于 $bitsPerCharacter 时如何编码最后一个字符。当 TRUE 时,要编码的位放置在最终组的最重要位置,较低位设置为 0。当 FALSE 时,最终位放置在最低位。对于 RFC 4648 编码,$rightPadFinalBits 应为 TRUE。默认:FALSE

  • boolean $padFinalGroup 常将字符编码成组。例如,Base64(基于每个字符 6 位)将 3 个原始字节转换为 4 个编码字符。如果剩余的字节不足,最终组将用 = 补齐以完成 4 个字符的组,编码长度总是 4 的倍数。尽管填充提供的信息是多余的,但某些程序依赖于它进行解码;Base2n 不这样做。默认:FALSE

  • string $padCharacter$padFinalGroupTRUE 时,这是使用的填充字符。默认:=

encode() 参数

  • string $rawString 必需。要编码的数据。

decode() 参数

  • string $encodedString 必需。要解码的字符串。
  • boolean $strictTRUE 时,如果 $encodedString 包含无法解码的字符,则返回 NULL。当 FALSE 时,未知字符将被简单地忽略。默认:FALSE

示例

PHP 不提供任何 Base32 编码函数。通过将 $bitsPerCharacter 设置为 5 并在 $chars 中指定您想要的字母表,您可以处理任何 Base32 变体

// RFC 4648 base32 alphabet; case-insensitive
$base32 = new Base2n(5, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ234567', FALSE, TRUE, TRUE);
$encoded = $base32->encode('encode this');
// MVXGG33EMUQHI2DJOM======
// RFC 4648 base32hex alphabet
$base32hex = new Base2n(5, '0123456789ABCDEFGHIJKLMNOPQRSTUV', FALSE, TRUE, TRUE);
$encoded = $base32hex->encode('encode this');
// CLN66RR4CKG78Q39EC======

八进制表示法

$octal = new Base2n(3);
$encoded = $octal->encode('encode this');
// 312671433366214510072150322711

在二进制表示法和其实际二进制表示法之间来回转换的便捷方法

$binary = new Base2n(1);
$encoded = $binary->encode('encode this');
// 0110010101101110011000110110111101100100011001010010000001110100011010000110100101110011
$decoded = $binary->decode($encoded);
// encode this

PHP 使用专有的二进制到文本编码方案,从随机哈希摘要中生成会话标识符。在数据库中存储这些会话标识符的最有效方式是将它们解码回原始哈希摘要。PHP 的编码方案通过 php.ini 中的 session.hash_bits_per_character 设置进行配置。解码大小取决于哈希函数,该函数通过 php.ini 中的 session.hash_function 设置。

// session.hash_function = 0
// session.hash_bits_per_character = 5
// 128-bit session ID
$sessionId = 'q3c8n4vqpq11i0vr6ucmafg1h3';
// Decodes to 16 bytes
$phpBase32 = new Base2n(5, '0123456789abcdefghijklmnopqrstuv');
$rawSessionId = $phpBase32->decode($sessionId);
// session.hash_function = 1
// session.hash_bits_per_character = 6
// 160-bit session ID
$sessionId = '7Hf91mVc,q-9W1VndNNh3evVN83';
// Decodes to 20 bytes
$phpBase64 = new Base2n(6, '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-,');
$rawSessionId = $phpBase64->decode($sessionId);

生成随机安全令牌

$tokenEncoder = new Base2n(6, '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-,');
$binaryToken = openssl_random_pseudo_bytes(32); // PHP >= 5.3
$token = $tokenEncoder->encode($binaryToken);
// Example: U6M132v9FG-AHhBVaQWOg1gjyUi1IogNxuen0i3u3ep

以下示例可能比实际应用更有趣。

我们可以使用 7 位编码来编码任意数据。(注意,这不同于 7bit MIME 内容传输编码。)

// This uses all 7-bit ASCII characters
$base128chars = "\x00\x01\x02\x03\x04\x05\x06\x07\x08\x09\x0A\x0B\x0C\x0D\x0E\x0F"
              . "\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1A\x1B\x1C\x1D\x1E\x1F"
              . "\x20\x21\x22\x23\x24\x25\x26\x27\x28\x29\x2A\x2B\x2C\x2D\x2E\x2F"
              . "\x30\x31\x32\x33\x34\x35\x36\x37\x38\x39\x3A\x3B\x3C\x3D\x3E\x3F"
              . "\x40\x41\x42\x43\x44\x45\x46\x47\x48\x49\x4A\x4B\x4C\x4D\x4E\x4F"
              . "\x50\x51\x52\x53\x54\x55\x56\x57\x58\x59\x5A\x5B\x5C\x5D\x5E\x5F"
              . "\x60\x61\x62\x63\x64\x65\x66\x67\x68\x69\x6A\x6B\x6C\x6D\x6E\x6F"
              . "\x70\x71\x72\x73\x74\x75\x76\x77\x78\x69\x7A\x7B\x7C\x7D\x7E\x7F";

$base128 = new Base2n(7, $base128chars);
$encoded = $base128->encode('encode this');

以下编码保证了每个字节的最高位都设置为 1

// "High" base-128 encoding
$high128chars = "\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8A\x8B\x8C\x8D\x8E\x8F"
              . "\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9A\x9B\x9C\x9D\x9E\x9F"
              . "\xA0\xA1\xA2\xA3\xA4\xA5\xA6\xA7\xA8\xA9\xAA\xAB\xAC\xAD\xAE\xAF"
              . "\xB0\xB1\xB2\xB3\xB4\xB5\xB6\xB7\xB8\xB9\xBA\xBB\xBC\xBD\xBE\xBF"
              . "\xC0\xC1\xC2\xC3\xC4\xC5\xC6\xC7\xC8\xC9\xCA\xCB\xCC\xCD\xCE\xCF"
              . "\xD0\xD1\xD2\xD3\xD4\xD5\xD6\xD7\xD8\xD9\xDA\xDB\xDC\xDD\xDE\xDF"
              . "\xE0\xE1\xE2\xE3\xE4\xE5\xE6\xE7\xE8\xE9\xEA\xEB\xEC\xED\xEE\xEF"
              . "\xF0\xF1\xF2\xF3\xF4\xF5\xF6\xF7\xF8\xF9\xFA\xFB\xFC\xFD\xFE\xFF";

$high128 = new Base2n(7, $high128chars);
$encoded = $high128->encode('encode this');

让我们创建一个仅使用非打印控制字符的编码!

// Base-32 non-printable character encoding
$noPrintChars = "\x00\x01\x02\x03\x04\x05\x06\x07\x08\x09\x0A\x0B\x0C\x0D\x0E\x0F"
              . "\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1A\x1B\x1C\x1D\x1E\x1F";

$nonPrintable32 = new Base2n(5, $noPrintChars);
$encoded = $nonPrintable32->encode('encode this');

为什么不只使用空白来编码数据?这里是一个使用空格、制表符、换行符和回车符的基4编码

// Base-4 whitespace encoding
$whitespaceChars = " \t\n\r";

$whitespace = new Base2n(2, $whitespaceChars);
$encoded = $whitespace->encode('encode this');
// "\t\n\t\t\t\n\r\n\t\n \r\t\n\r\r\t\n\t \t\n\t\t \n  \t\r\t \t\n\n \t\n\n\t\t\r \r"

$decoded = $whitespace->decode(
    "\t\n\t\t\t\n\r\n\t\n \r\t\n\r\r\t\n\t \t\n\t\t \n  \t\r\t \t\n\n \t\n\n\t\t\r \r"
);
// encode this

反例

Base2n 并不慢,但它永远不会优于用 C 语言实现的编码函数。如果存在这样的函数,请使用它。

PHP 提供了 base64_encode()base64_decode() 函数,并且您应该始终使用它们进行标准 Base64 编码。当您需要使用修改后的字母表时,可以使用 strtr()str_replace() 来转换编码输出。

Base64 的一个常见变体是为了 URL 和文件名而修改的,其中 +/ 被替换为 -_,并且省略了 = 填充。最好使用原生 PHP 函数来处理此变体

// RFC 4648 base64url with Base2n...
$base64url = new Base2n(6, 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789-_', TRUE, TRUE, FALSE);
$encoded = $base64url->encode("encode this \xBF\xC2\xBF");
// ZW5jb2RlIHRoaXMgv8K_

// RFC 4648 base64url with native functions...
$encoded = str_replace(array('+', '/', '='), array('-', '_', ''), base64_encode("encode this \xBF\xC2\xBF"));
// ZW5jb2RlIHRoaXMgv8K_

当字母表中的每个位置都发生变化时,原生函数会稍微复杂一些,如本例中 解码 Bcrypt 哈希 所示

// Decode the salt and digest from a Bcrypt hash

$hash = '$2y$14$i5btSOiulHhaPHPbgNUGdObga/GC.AVG/y5HHY1ra7L0C9dpCaw8u';
$encodedSalt    = substr($hash, 7, 22);
$encodedDigest  = substr($hash, 29, 31);

// Using Base2n...
$bcrypt64 = new Base2n(6, './ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789', TRUE, TRUE);
$rawSalt    = $bcrypt64->decode($encodedSalt);   // 16 bytes
$rawDigest  = $bcrypt64->decode($encodedDigest); // 23 bytes

// Using native functions...
$bcrypt64alphabet = './ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789';
$base64alphabet   = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/';
$rawSalt    = base64_decode(strtr($encodedSalt,   $bcrypt64alphabet, $base64alphabet)); // 16 bytes
$rawDigest  = base64_decode(strtr($encodedDigest, $bcrypt64alphabet, $base64alphabet)); // 23 bytes

您可以使用 bin2hex()pack() 编码和解码十六进制数据

// Hexadecimal with Base2n...
$hexadecimal = new Base2n(4);
$encoded = $hexadecimal->encode('encode this'); // 656e636f64652074686973
$decoded = $hexadecimal->decode($encoded);      // encode this

// It's better to use native functions...
$encoded = bin2hex('encode this'); // 656e636f64652074686973
$decoded = pack('H*', $encoded);   // encode this
// As of PHP 5.4 you can use hex2bin() instead of pack()