alirezasedghi / virastar
Virastar 是一款波斯文文本清理工具。
v1.0.2
2022-03-23 22:12 UTC
Requires
- php: >=7.0.0
This package is auto-updated.
Last update: 2024-09-15 20:10:24 UTC
README
Virastar
ویراستار
Virastar 是一款波斯文文本清理工具。
PHP 专用波斯文文本编辑库
此仓库是 brothersincode/virastar 的 PHP 版本。
官方网站和 波斯文使用指南
安装
composer require alirezasedghi/virastar
用法
// Require Composer's autoloader. require 'vendor/autoload.php'; // Using Virastar namespace. use Alirezasedghi\Virastar\Virastar; $virastar = new Virastar(); $text = "فارسي را كمی درست تر می نويسيم"; $cleaned = $virastar->cleanup($text); echo $cleaned; // Outputs: "فارسی را کمی درستتر مینویسیم"
Virastar([选项])
选项
类型: array
$virastar = new Virastar([ "fix_english_numbers": false, "cleanup_line_breaks": false ]);
选项和规格
Virastar 提供了一系列选项来控制其行为。
normalize_eol
默认: true
- 将 Windows 行结束符替换为 Unix 行结束符 (
\n
)
decode_html_entities
默认: true
- 将数字和选定的 HTML 字符集转换为原始字符
fix_dashes
默认: true
- 将三个连字符替换为 mdash
- 将两个连字符替换为 ndash
fix_three_dots
默认: true
- 删除点之间的空格
- 将三个点替换为省略号字符
normalize_ellipsis
默认: true
- 将多个省略号替换为一个
- 将省略号后的 (空格|制表符|ZWNJ) 替换为一个空格
normalize_dates
默认: true
- 以斜杠作为分隔符重新排序日期部分
fix_english_quotes_pairs
默认: true
- 将英式引号对 (
“”
) 替换为其波斯文等效项 («»
)
fix_english_quotes
默认: true
- 将英式引号替换为其波斯文等效项
fix_hamzeh
默认: true
- 将
ه
后跟 (空格|ZWNJ|lrm) 再跟ی
替换为هٔ
- 将
ه
后跟 (空格|ZWNJ|lrm|无) 再跟ء
替换为هٔ
- 将
هٓ
或单字符ۀ
替换为标准هٔ
fix_hamzeh_arabic
默认: false
- 将阿拉伯文哈姆扎
ة
转换为هٔ
cleanup_rlm
默认: true
- 将随波斯文字符后的从右到左标记转换为零宽非连接符 (ZWNJ)
cleanup_zwnj
默认: true
- 将所有软连字符 (
­
) 转换为 zwnj - 删除多个 zwnj
- 删除字符后面不连接的字符后的 zwnj
- 删除数字、英语单词、空格和标点符号前后和中间的 zwnj
- 删除每行开头和结尾的不必要 zwnj
fix_arabic_numbers
默认: true
- 将阿拉伯数字替换为其波斯文等效项
fix_english_numbers
默认: true
- 将英语数字替换为其波斯文等效项
fix_numeral_symbols
默认: true
- 将英语百分号 (U+066A) 替换
- 将数字之间的点替换为十进制分隔符 (U+066B)
- 将数字之间的逗号替换为千位分隔符 (U+066C)
fix_misc_non_persian_chars
默认: true
- 将阿拉伯文普通/波浪形卡夫替换为其波斯文等效项
- 将阿拉伯文/乌尔都文/普什图文/维吾尔文耶替换为其波斯文等效项
- 将库尔德文黑兹替换为其波斯文等效项
fix_punctuations
默认: true
- 将
,
,;
替换为其波斯文等效项
fix_question_mark
默认: true
- 将问号替换为其波斯文等效项
fix_prefix_spacing
默认: true
- 在单词和前缀之间放置 zwnj
mi*
,nemi*
,bi*
fix_suffix_spacing
默认: true
- 在单词和后缀之间放置 zwnj
*ha
,*haye
*am
,*at
,*ash
,*ei
,*eid
,*eem
,*and
,*man
,*tan
,*shan
*tar
,*tari
,*tarin
*hayee
,*hayam
,*hayat
,*hayash
,*hayetan
,*hayeman
,*hayeshan
fix_suffix_misc
默认: true
- 将
ه
后跟ئ
或ی
,然后跟ی
替换为های
fix_spacing_for_braces_and_quotes
默认: true
- 删除
()
、[]
、{}
、“”
和«»
内部空格以及多于一个的外部空格
fix_spacing_for_punctuations
默认: true
- 删除标点符号前的空格
- 删除标点符号后的多个空格,除非后面跟着换行符
- 删除分隔时间部分的冒号后面的空格
- 删除数字中的点后面的空格
- 删除一些常见域名顶级域前的空格
- 删除问号和感叹号之间的空格
- 删除相同符号之间的空格
fix_diacritics
默认: true
- 在重音字符之前清除zwnj
- 清除多个重音字符
- 清除重音字符之前的空格
remove_diacritics
默认: false
- 删除所有重音字符
fix_persian_glyphs
默认: true
- 将不正确的波斯字符转换为标准字符
fix_misc_spacing
默认: true
- 删除Misc情况中括号前的空格
- 删除包含数字的大括号前的空格
cleanup_spacing
默认: true
- 将多个空格替换为一个空格
- 清除换行符之间的空白和zwnj
cleanup_line_breaks
默认: true
- 清除连续的两个或多个换行符
cleanup_begin_and_end
默认: true
- 删除新行开头的空格、制表符、zwnj和nbsp
- 从文本的开始和结束处删除空格、制表符、zwnj、方向标记和新行
markdown
markdown_normalize_braces
默认: true
- 删除
[]
和()
之间的空格(将[text] (link)
转换为[text](link)
) - 删除
!
和开括号之间的空格(将! [alt](src)
转换为
) - 删除双
()
、[]
、{}
内的空格(将[[ text ]]
转换为[[text]]
) - 删除双
()
、[]
、{}
之间的空格(将[[text] ]
转换为[[text]]
)
markdown_normalize_lists
默认: true
- 删除markdown列表中两项之间多余的行(以
-
、*
或#
开始的列表)
skip_markdown_ordered_lists_numbers_conversion
默认: false
- 跳过将markdown有序列表中的英语数字转换为数字
aggressive editing
cleanup_extra_marks
默认: true
- 将多个感叹号替换为一个感叹号
- 将多个英语或波斯问号替换为一个问号
- 重新排列连续的标记:
?!
转换为!?
kashidas_as_parenthetic
默认: true
- 将括号中的kashidas替换为ndash
cleanup_kashidas
默认: true
- 将数字之间的kashida转换为ndash
- 删除非空白字符之间的所有kashida
extras
preserve_front_matter
默认: true
- 保留文本中的前缀数据
preserve_HTML
默认: true
- 保留文本中的所有HTML标签
preserve_comments
默认: true
- 保留文本中的所有HTML注释
preserve_entities
默认: true
- 保留文本中的所有HTML实体
preserve_URIs
默认: true
- 保留文本中的所有URI字符串
preserve_brackets
默认: false
- 保留方括号内的字符串(
[]
)
preserve_braces
默认: false
- 保留大括号内的字符串(
{}
)
preserve_nbsp
默认: true
- 保留文本中的所有不间断空格实体
License
本软件受MIT许可证许可。 查看许可证。