alirezasedghi / virastar
Virastar 是一款波斯文文本清理工具。
v1.0.2
2022-03-23 22:12 UTC
Requires
- php: >=7.0.0
This package is auto-updated.
Last update: 2024-09-15 20:10:24 UTC
README
Virastar
ویراستار
Virastar 是一款波斯文文本清理工具。
PHP 专用波斯文文本编辑库
此仓库是 brothersincode/virastar 的 PHP 版本。
官方网站和 波斯文使用指南
安装
composer require alirezasedghi/virastar
用法
// Require Composer's autoloader. require 'vendor/autoload.php'; // Using Virastar namespace. use Alirezasedghi\Virastar\Virastar; $virastar = new Virastar(); $text = "فارسي را كمی درست تر می نويسيم"; $cleaned = $virastar->cleanup($text); echo $cleaned; // Outputs: "فارسی را کمی درستتر مینویسیم"
Virastar([选项])
选项
类型: array
$virastar = new Virastar([ "fix_english_numbers": false, "cleanup_line_breaks": false ]);
选项和规格
Virastar 提供了一系列选项来控制其行为。
normalize_eol
默认: true
- 将 Windows 行结束符替换为 Unix 行结束符 (
\n)
decode_html_entities
默认: true
- 将数字和选定的 HTML 字符集转换为原始字符
fix_dashes
默认: true
- 将三个连字符替换为 mdash
- 将两个连字符替换为 ndash
fix_three_dots
默认: true
- 删除点之间的空格
- 将三个点替换为省略号字符
normalize_ellipsis
默认: true
- 将多个省略号替换为一个
- 将省略号后的 (空格|制表符|ZWNJ) 替换为一个空格
normalize_dates
默认: true
- 以斜杠作为分隔符重新排序日期部分
fix_english_quotes_pairs
默认: true
- 将英式引号对 (
“”) 替换为其波斯文等效项 («»)
fix_english_quotes
默认: true
- 将英式引号替换为其波斯文等效项
fix_hamzeh
默认: true
- 将
ه后跟 (空格|ZWNJ|lrm) 再跟ی替换为هٔ - 将
ه后跟 (空格|ZWNJ|lrm|无) 再跟ء替换为هٔ - 将
هٓ或单字符ۀ替换为标准هٔ
fix_hamzeh_arabic
默认: false
- 将阿拉伯文哈姆扎
ة转换为هٔ
cleanup_rlm
默认: true
- 将随波斯文字符后的从右到左标记转换为零宽非连接符 (ZWNJ)
cleanup_zwnj
默认: true
- 将所有软连字符 (
­) 转换为 zwnj - 删除多个 zwnj
- 删除字符后面不连接的字符后的 zwnj
- 删除数字、英语单词、空格和标点符号前后和中间的 zwnj
- 删除每行开头和结尾的不必要 zwnj
fix_arabic_numbers
默认: true
- 将阿拉伯数字替换为其波斯文等效项
fix_english_numbers
默认: true
- 将英语数字替换为其波斯文等效项
fix_numeral_symbols
默认: true
- 将英语百分号 (U+066A) 替换
- 将数字之间的点替换为十进制分隔符 (U+066B)
- 将数字之间的逗号替换为千位分隔符 (U+066C)
fix_misc_non_persian_chars
默认: true
- 将阿拉伯文普通/波浪形卡夫替换为其波斯文等效项
- 将阿拉伯文/乌尔都文/普什图文/维吾尔文耶替换为其波斯文等效项
- 将库尔德文黑兹替换为其波斯文等效项
fix_punctuations
默认: true
- 将
,,;替换为其波斯文等效项
fix_question_mark
默认: true
- 将问号替换为其波斯文等效项
fix_prefix_spacing
默认: true
- 在单词和前缀之间放置 zwnj
mi*,nemi*,bi*
fix_suffix_spacing
默认: true
- 在单词和后缀之间放置 zwnj
*ha,*haye*am,*at,*ash,*ei,*eid,*eem,*and,*man,*tan,*shan*tar,*tari,*tarin*hayee,*hayam,*hayat,*hayash,*hayetan,*hayeman,*hayeshan
fix_suffix_misc
默认: true
- 将
ه后跟ئ或ی,然后跟ی替换为های
fix_spacing_for_braces_and_quotes
默认: true
- 删除
()、[]、{}、“”和«»内部空格以及多于一个的外部空格
fix_spacing_for_punctuations
默认: true
- 删除标点符号前的空格
- 删除标点符号后的多个空格,除非后面跟着换行符
- 删除分隔时间部分的冒号后面的空格
- 删除数字中的点后面的空格
- 删除一些常见域名顶级域前的空格
- 删除问号和感叹号之间的空格
- 删除相同符号之间的空格
fix_diacritics
默认: true
- 在重音字符之前清除zwnj
- 清除多个重音字符
- 清除重音字符之前的空格
remove_diacritics
默认: false
- 删除所有重音字符
fix_persian_glyphs
默认: true
- 将不正确的波斯字符转换为标准字符
fix_misc_spacing
默认: true
- 删除Misc情况中括号前的空格
- 删除包含数字的大括号前的空格
cleanup_spacing
默认: true
- 将多个空格替换为一个空格
- 清除换行符之间的空白和zwnj
cleanup_line_breaks
默认: true
- 清除连续的两个或多个换行符
cleanup_begin_and_end
默认: true
- 删除新行开头的空格、制表符、zwnj和nbsp
- 从文本的开始和结束处删除空格、制表符、zwnj、方向标记和新行
markdown
markdown_normalize_braces
默认: true
- 删除
[]和()之间的空格(将[text] (link)转换为[text](link)) - 删除
!和开括号之间的空格(将! [alt](src)转换为) - 删除双
()、[]、{}内的空格(将[[ text ]]转换为[[text]]) - 删除双
()、[]、{}之间的空格(将[[text] ]转换为[[text]])
markdown_normalize_lists
默认: true
- 删除markdown列表中两项之间多余的行(以
-、*或#开始的列表)
skip_markdown_ordered_lists_numbers_conversion
默认: false
- 跳过将markdown有序列表中的英语数字转换为数字
aggressive editing
cleanup_extra_marks
默认: true
- 将多个感叹号替换为一个感叹号
- 将多个英语或波斯问号替换为一个问号
- 重新排列连续的标记:
?!转换为!?
kashidas_as_parenthetic
默认: true
- 将括号中的kashidas替换为ndash
cleanup_kashidas
默认: true
- 将数字之间的kashida转换为ndash
- 删除非空白字符之间的所有kashida
extras
preserve_front_matter
默认: true
- 保留文本中的前缀数据
preserve_HTML
默认: true
- 保留文本中的所有HTML标签
preserve_comments
默认: true
- 保留文本中的所有HTML注释
preserve_entities
默认: true
- 保留文本中的所有HTML实体
preserve_URIs
默认: true
- 保留文本中的所有URI字符串
preserve_brackets
默认: false
- 保留方括号内的字符串(
[])
preserve_braces
默认: false
- 保留大括号内的字符串(
{})
preserve_nbsp
默认: true
- 保留文本中的所有不间断空格实体
License
本软件受MIT许可证许可。 查看许可证。