badcow/ademarre-binary-to-text-php

这是原始存储库的分支。PHP二进制到文本编码工具集合。包括Base32支持等。

v2.1.1 2019-12-20 23:07 UTC

This package is auto-updated.

Last update: 2024-09-21 20:56:35 UTC


README

目前,此存储库中唯一的类是 Base2n

Base2n 用于使用任意编码方案将二进制数据转换为文本,这些编码方案以2n表示法表示二进制数据。它可以处理许多标准编码方案的非常规变体,例如Base64Base32。许多二进制到文本编码方案使用固定数量的二进制位生成每个编码字符。这些方案可以概括为一个算法,在此处实现。

二进制到文本编码通常用于表示在基于文本的协议中安全传输的数据,并且还有其他几种实际用途。请参阅下面的示例。

Base2n的基本用法

使用Base2n,您可以参数化地定义您的编码方案。让我们实例化一个Base32编码器

// RFC 4648 base32 alphabet; case-insensitive
$base32 = new Base2n(5, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ234567', FALSE, TRUE, TRUE);
$encoded = $base32->encode('encode this');
// MVXGG33EMUQHI2DJOM======

构造函数参数

  • string $chars 此字符串指定基字母表。必须为 2^$bitsPerCharacter 长度。默认:0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-_

  • boolean $caseSensitive 以区分大小写的方式解码。默认:FALSE

  • boolean $rightPadFinalBits 当剩余的位少于 $bitsPerCharacter 时如何编码最后一个字符。当 TRUE 时,要编码的位放在最末组的最高位,较低位设置为 0。当 FALSE 时,最后几位放在最低位。对于RFC 4648编码,$rightPadFinalBits应设置为 TRUE。默认:FALSE

  • boolean $padFinalGroup 常对字符进行分组编码。例如,Base64(每字符基于6位)将3个原始字节转换为4个编码字符。如果末尾剩余的字节不足,最终组将用=填充以完成4个字符的一组,并且编码长度总是4的倍数。虽然填充提供的信息是冗余的,但某些程序依赖于它进行解码;Base2n不这样做。默认:FALSE

  • string $padCharacter$padFinalGroupTRUE 时,这是使用的填充字符。默认:=

encode() 参数

  • string $rawString 必需。要编码的数据。

decode() 参数

  • string $encodedString 必需。要解码的字符串。
  • boolean $strictTRUE 时,如果 $encodedString 包含无法解码的字符,则返回 NULL。当 FALSE 时,未知字符将被简单地忽略。默认:FALSE

示例

PHP不提供任何Base32编码函数。通过将 $bitsPerCharacter 设置为5并在 $chars 中指定您想要的字母表,您可以处理Base32的任何变体

// RFC 4648 base32 alphabet; case-insensitive
$base32 = new Base2n(5, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ234567', FALSE, TRUE, TRUE);
$encoded = $base32->encode('encode this');
// MVXGG33EMUQHI2DJOM======
// RFC 4648 base32hex alphabet
$base32hex = new Base2n(5, '0123456789ABCDEFGHIJKLMNOPQRSTUV', FALSE, TRUE, TRUE);
$encoded = $base32hex->encode('encode this');
// CLN66RR4CKG78Q39EC======

八进制表示法

$octal = new Base2n(3);
$encoded = $octal->encode('encode this');
// 312671433366214510072150322711

在二进制表示法和其实际二进制表示法之间来回转换的便捷方式

$binary = new Base2n(1);
$encoded = $binary->encode('encode this');
// 0110010101101110011000110110111101100100011001010010000001110100011010000110100101110011
$decoded = $binary->decode($encoded);
// encode this

PHP使用专有的二进制到文本编码方案,从随机哈希摘要生成会话标识符。在数据库中存储这些会话标识符的最有效方法是解码回它们的原始哈希摘要。PHP的编码方案通过php.ini中的session.hash_bits_per_character设置进行配置。解码的大小取决于哈希函数,该函数通过php.ini中的session.hash_function设置。

// session.hash_function = 0
// session.hash_bits_per_character = 5
// 128-bit session ID
$sessionId = 'q3c8n4vqpq11i0vr6ucmafg1h3';
// Decodes to 16 bytes
$phpBase32 = new Base2n(5, '0123456789abcdefghijklmnopqrstuv');
$rawSessionId = $phpBase32->decode($sessionId);
// session.hash_function = 1
// session.hash_bits_per_character = 6
// 160-bit session ID
$sessionId = '7Hf91mVc,q-9W1VndNNh3evVN83';
// Decodes to 20 bytes
$phpBase64 = new Base2n(6, '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-,');
$rawSessionId = $phpBase64->decode($sessionId);

生成随机安全令牌

$tokenEncoder = new Base2n(6, '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-,');
$binaryToken = openssl_random_pseudo_bytes(32); // PHP >= 5.3
$token = $tokenEncoder->encode($binaryToken);
// Example: U6M132v9FG-AHhBVaQWOg1gjyUi1IogNxuen0i3u3ep

以下示例可能比实际更有趣。

我们可以使用7位编码来编码任意数据。(注意,这不同于7位MIME内容传输编码。)

// This uses all 7-bit ASCII characters
$base128chars = "\x00\x01\x02\x03\x04\x05\x06\x07\x08\x09\x0A\x0B\x0C\x0D\x0E\x0F"
              . "\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1A\x1B\x1C\x1D\x1E\x1F"
              . "\x20\x21\x22\x23\x24\x25\x26\x27\x28\x29\x2A\x2B\x2C\x2D\x2E\x2F"
              . "\x30\x31\x32\x33\x34\x35\x36\x37\x38\x39\x3A\x3B\x3C\x3D\x3E\x3F"
              . "\x40\x41\x42\x43\x44\x45\x46\x47\x48\x49\x4A\x4B\x4C\x4D\x4E\x4F"
              . "\x50\x51\x52\x53\x54\x55\x56\x57\x58\x59\x5A\x5B\x5C\x5D\x5E\x5F"
              . "\x60\x61\x62\x63\x64\x65\x66\x67\x68\x69\x6A\x6B\x6C\x6D\x6E\x6F"
              . "\x70\x71\x72\x73\x74\x75\x76\x77\x78\x69\x7A\x7B\x7C\x7D\x7E\x7F";

$base128 = new Base2n(7, $base128chars);
$encoded = $base128->encode('encode this');

以下编码确保每个字节的最高位被设置

// "High" base-128 encoding
$high128chars = "\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8A\x8B\x8C\x8D\x8E\x8F"
              . "\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9A\x9B\x9C\x9D\x9E\x9F"
              . "\xA0\xA1\xA2\xA3\xA4\xA5\xA6\xA7\xA8\xA9\xAA\xAB\xAC\xAD\xAE\xAF"
              . "\xB0\xB1\xB2\xB3\xB4\xB5\xB6\xB7\xB8\xB9\xBA\xBB\xBC\xBD\xBE\xBF"
              . "\xC0\xC1\xC2\xC3\xC4\xC5\xC6\xC7\xC8\xC9\xCA\xCB\xCC\xCD\xCE\xCF"
              . "\xD0\xD1\xD2\xD3\xD4\xD5\xD6\xD7\xD8\xD9\xDA\xDB\xDC\xDD\xDE\xDF"
              . "\xE0\xE1\xE2\xE3\xE4\xE5\xE6\xE7\xE8\xE9\xEA\xEB\xEC\xED\xEE\xEF"
              . "\xF0\xF1\xF2\xF3\xF4\xF5\xF6\xF7\xF8\xF9\xFA\xFB\xFC\xFD\xFE\xFF";

$high128 = new Base2n(7, $high128chars);
$encoded = $high128->encode('encode this');

让我们创建一个仅使用不可打印控制字符的编码!

// Base-32 non-printable character encoding
$noPrintChars = "\x00\x01\x02\x03\x04\x05\x06\x07\x08\x09\x0A\x0B\x0C\x0D\x0E\x0F"
              . "\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1A\x1B\x1C\x1D\x1E\x1F";

$nonPrintable32 = new Base2n(5, $noPrintChars);
$encoded = $nonPrintable32->encode('encode this');

为什么不只用空格来编码数据?这里是一个使用空格、制表符、换行符和回车符的基4编码

// Base-4 whitespace encoding
$whitespaceChars = " \t\n\r";

$whitespace = new Base2n(2, $whitespaceChars);
$encoded = $whitespace->encode('encode this');
// "\t\n\t\t\t\n\r\n\t\n \r\t\n\r\r\t\n\t \t\n\t\t \n  \t\r\t \t\n\n \t\n\n\t\t\r \r"

$decoded = $whitespace->decode(
    "\t\n\t\t\t\n\r\n\t\n \r\t\n\r\r\t\n\t \t\n\t\t \n  \t\r\t \t\n\n \t\n\n\t\t\r \r"
);
// encode this

反例

Base2n并不慢,但它永远不会优于用C实现的编码函数。当有现成的函数时,请使用它。

PHP提供了base64_encode()base64_decode()函数,您应该始终使用它们来进行标准Base64编码。当您需要使用修改后的字母表时,可以使用strtr()str_replace()来转换编码后的输出。

Base64的一个常见变体是对URL和文件名进行了修改,其中+/被替换为-_,并省略了=填充。最好使用原生PHP函数来处理此变体

// RFC 4648 base64url with Base2n...
$base64url = new Base2n(6, 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789-_', TRUE, TRUE, FALSE);
$encoded = $base64url->encode("encode this \xBF\xC2\xBF");
// ZW5jb2RlIHRoaXMgv8K_

// RFC 4648 base64url with native functions...
$encoded = str_replace(array('+', '/', '='), array('-', '_', ''), base64_encode("encode this \xBF\xC2\xBF"));
// ZW5jb2RlIHRoaXMgv8K_

当字母表中的每个位置都改变时,原生函数会变得稍微繁琐一些,如本例中解码Bcrypt哈希所示

// Decode the salt and digest from a Bcrypt hash

$hash = '$2y$14$i5btSOiulHhaPHPbgNUGdObga/GC.AVG/y5HHY1ra7L0C9dpCaw8u';
$encodedSalt    = substr($hash, 7, 22);
$encodedDigest  = substr($hash, 29, 31);

// Using Base2n...
$bcrypt64 = new Base2n(6, './ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789', TRUE, TRUE);
$rawSalt    = $bcrypt64->decode($encodedSalt);   // 16 bytes
$rawDigest  = $bcrypt64->decode($encodedDigest); // 23 bytes

// Using native functions...
$bcrypt64alphabet = './ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789';
$base64alphabet   = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/';
$rawSalt    = base64_decode(strtr($encodedSalt,   $bcrypt64alphabet, $base64alphabet)); // 16 bytes
$rawDigest  = base64_decode(strtr($encodedDigest, $bcrypt64alphabet, $base64alphabet)); // 23 bytes

您可以使用bin2hex()pack()来编码和解码十六进制数

// Hexadecimal with Base2n...
$hexadecimal = new Base2n(4);
$encoded = $hexadecimal->encode('encode this'); // 656e636f64652074686973
$decoded = $hexadecimal->decode($encoded);      // encode this

// It's better to use native functions...
$encoded = bin2hex('encode this'); // 656e636f64652074686973
$decoded = pack('H*', $encoded);   // encode this
// As of PHP 5.4 you can use hex2bin() instead of pack()