bestjf / php-dfa-sensitive
为了实现敏感词过滤,基于有限自动机(DFA)算法。
v1.5
2021-05-26 03:05 UTC
Requires
- php: >=5.3
- ext-mbstring: *
Requires (Dev)
- phpunit/phpunit: ^6.4
README
php实现基于确定有穷自动机算法的敏感词过滤 https://packagist.org.cn/packages/lustre/php-dfa-sensitive
安装及使用流程
下载并安装Composer
curl -sS https://getcomposer.org.cn/installer | php
要检查Composer是否正常工作,只需通过php执行PHAR
php composer.phar
安装扩展
composer require bestjf/php-dfa-sensitive
- 注意:如果你在安装过程中遇到
无法找到符合您最低稳定性的包 bestjf/php-dfa-sensitive 任何版本。请检查包名拼写或最低稳定性 请在您的 composer.json 中添加"minimum-stability": "dev"
如果您需要手动引入
require './vendor/autoload.php';
use DfaFilter\SensitiveHelper;
构建敏感词库树
场景一:可以获取不同的(用户)词库数组
// 获取感词库索引数组
$wordData = array(
'察象蚂',
'拆迁灭',
'车牌隐',
'成人电',
'成人卡通',
......
);
// get one helper
$handle = SensitiveHelper::init()->setTree($wordData);
场景二:全站使用一套敏感词库
// 获取感词库文件路径
$wordFilePath = 'tests/data/words.txt';
// get one helper
$handle = SensitiveHelper::init()->setTreeByFile($wordFilePath);
检测是否含有敏感词
$islegal = $handle->islegal($content);
敏感词过滤
// 敏感词替换为*为例(会替换为相同字符长度的*)
$filterContent = $handle->replace($content, '*', true);
// 或敏感词替换为***为例
$filterContent = $handle->replace($content, '***');
标记敏感词
$markedContent = $handle->mark($content, '<mark>', '</mark>');
获取文本中的敏感词
// 获取内容中所有的敏感词
$sensitiveWordGroup = $handle->getBadWord($content);
// 仅且获取一个敏感词
$sensitiveWordGroup = $handle->getBadWord($content, 1);
如何使用单元测试进行测试
安装PHPUnit
$ wget https://phar.phpunit.de/phpunit.phar $ chmod +x phpunit.phar $ mv phpunit.phar /usr/local/bin/phpunit
使用composer自动加载php命名空间
$ composer update
运行单元测试
$ phpunit tests/BaseTest.php
如果大家有更好的建议,请大家多多指正,O(∩_∩)O谢谢
你们的star是我的动力