octoberfa / virastar
Virastar 是一个波斯语文本清理器。
Requires
- php: >=7.1
Requires (Dev)
- phpunit/phpunit: 6.*
This package is auto-updated.
Last update: 2024-09-10 20:50:30 UTC
README
Virastar 是一个波斯语文本清理器。
A php port of juvee/virastar
安装
composer require octoberfa/virastar
用法
require "./vendor/autoload.php"; echo virastar("فارسي را كمی درست تر می نويسيم"); // Outputs: "فارسی را کمی درستتر مینویسیم"
virastar([text] [,options])
text
类型: string
待清理的波斯语源字符串。
options
类型: array
virastar("سلام 123" ,["fix_english_numbers":false]); // Outputs:"سلام 123"
选项和规格
Virastar 提供了一系列选项来控制其行为。
所有选项默认都是 启用 的。
-
normalize_eol- 将 Windows 行结束符替换为 Unix EOL (
\n)
- 将 Windows 行结束符替换为 Unix EOL (
-
decode_htmlentities- 将所有 HTML 字符集转换为原始字符
-
fix_dashes- 将双横线替换为 ndash,将三横线替换为 mdash
-
fix_three_dots- 将三个点替换为省略号
-
fix_english_quotes_pairs- 将英文引号对 (
“”) 替换为其波斯语等价物 («»)
- 将英文引号对 (
-
fix_english_quotes- 将英文引号、逗号和分号替换为其波斯语等价物
-
fix_hamzeh- 将
ه ی转换为هٔ
- 将
-
cleanup_rlm- 将跟随波斯字符的从右到左标记转换为零宽非连接符 (ZWNJ)
-
cleanup_zwnj- 删除多个 zwnj 字符
- 删除后面或前面有空格的不必要的 zwnj 字符
- 清理波斯语字符后不连接下一个字母的波斯语字符后面的 zwnj 字符
- 清理英文字符前的 zwnj 字符
- 清理标点符号前后和 zwnj 字符
-
fix_arabic_numbers- 将阿拉伯数字替换为其波斯语等价物
-
fix_english_numbers- 将英语数字替换为其波斯语等价物
- 不应该在英语短语中替换英语数字
-
skip_markdown_ordered_lists_numbers_conversion- 跳过将 markdown 有序列表中的英语数字进行转换
-
fix_misc_non_persian_chars- 将阿拉伯字母“卡夫”和“耶”替换为其波斯语等价物
-
fix_question_mark- 将问号替换为其波斯语等价物
-
fix_perfix_spacing- 在词和前缀之间放置 zwnj (
mi*nemi*)
- 在词和前缀之间放置 zwnj (
-
fix_suffix_spacing- 在词和后缀之间放置 zwnj (
*tar*tarin*ha*haye)
- 在词和后缀之间放置 zwnj (
-
fix_spacing_for_braces_and_quotes- 修正
()[]{}“”«»的间距(外部一个空格,内部无空格) - correct
:;,.?!spacing (one space after and no space before)
- 修正
-
cleanup_spacing- 将多个空格替换为一个空格
-
cleanup_begin_and_end- 从文本的开始和结束处删除空格、制表符和新行
-
cleanup_extra_marks- 将多个
!或?标记替换为一个
- 将多个
-
kashidas_as_parenthetic- 将括号中的 kashidas 替换为 ndash
-
cleanup_kashidas- 删除所有 kashidas
-
preserve_HTML- 保留所有 HTML 标签
-
preserve_URIs- 保留文本中的所有 URI 链接
-
preserve_brackets- 保留方括号内的字符串 (
[])
- 保留方括号内的字符串 (
-
preserve_braces- 保留花括号内的字符串 (
{})
- 保留花括号内的字符串 (
-
preserve_code- 保留 html 代码标签和 markdown "```" 内的字符串
-
preserve_pre- 保留 html pre 标签内的字符串
许可证
本软件根据 MIT 许可证授权。 查看许可证。