octoberfa/virastar

Virastar 是一个波斯语文本清理器。

1.0.1 2019-01-07 12:02 UTC

This package is auto-updated.

Last update: 2024-09-10 20:50:30 UTC


README

Virastar 是一个波斯语文本清理器。

Latest Stable Version Latest Unstable Version Build Status Total Downloads License composer.lock

A php port of juvee/virastar

安装

composer require octoberfa/virastar

用法

require "./vendor/autoload.php";
echo virastar("فارسي را كمی درست تر می نويسيم");
// Outputs: "فارسی را کمی درست‌تر می‌نویسیم"

virastar([text] [,options])

text

类型: string

待清理的波斯语源字符串。

options

类型: array

virastar("سلام 123" ,["fix_english_numbers":false]);
// Outputs:"سلام 123"

选项和规格

Virastar 提供了一系列选项来控制其行为。

所有选项默认都是 启用 的。

  • normalize_eol

    • 将 Windows 行结束符替换为 Unix EOL (\n)
  • decode_htmlentities

    • 将所有 HTML 字符集转换为原始字符
  • fix_dashes

    • 将双横线替换为 ndash,将三横线替换为 mdash
  • fix_three_dots

    • 将三个点替换为省略号
  • fix_english_quotes_pairs

    • 将英文引号对 (“”) 替换为其波斯语等价物 («»)
  • fix_english_quotes

    • 将英文引号、逗号和分号替换为其波斯语等价物
  • fix_hamzeh

    • ه ی 转换为 هٔ
  • cleanup_rlm

    • 将跟随波斯字符的从右到左标记转换为零宽非连接符 (ZWNJ)
  • cleanup_zwnj

    • 删除多个 zwnj 字符
    • 删除后面或前面有空格的不必要的 zwnj 字符
    • 清理波斯语字符后不连接下一个字母的波斯语字符后面的 zwnj 字符
    • 清理英文字符前的 zwnj 字符
    • 清理标点符号前后和 zwnj 字符
  • fix_arabic_numbers

    • 将阿拉伯数字替换为其波斯语等价物
  • fix_english_numbers

    • 将英语数字替换为其波斯语等价物
    • 不应该在英语短语中替换英语数字
  • skip_markdown_ordered_lists_numbers_conversion

    • 跳过将 markdown 有序列表中的英语数字进行转换
  • fix_misc_non_persian_chars

    • 将阿拉伯字母“卡夫”和“耶”替换为其波斯语等价物
  • fix_question_mark

    • 将问号替换为其波斯语等价物
  • fix_perfix_spacing

    • 在词和前缀之间放置 zwnj (mi* nemi*)
  • fix_suffix_spacing

    • 在词和后缀之间放置 zwnj (*tar *tarin *ha *haye)
  • fix_spacing_for_braces_and_quotes

    • 修正 () [] {} “” «» 的间距(外部一个空格,内部无空格)
    • correct :;,.?! spacing (one space after and no space before)
  • cleanup_spacing

    • 将多个空格替换为一个空格
  • cleanup_begin_and_end

    • 从文本的开始和结束处删除空格、制表符和新行
  • cleanup_extra_marks

    • 将多个 !? 标记替换为一个
  • kashidas_as_parenthetic

    • 将括号中的 kashidas 替换为 ndash
  • cleanup_kashidas

    • 删除所有 kashidas
  • preserve_HTML

    • 保留所有 HTML 标签
  • preserve_URIs

    • 保留文本中的所有 URI 链接
  • preserve_brackets

    • 保留方括号内的字符串 ([])
  • preserve_braces

    • 保留花括号内的字符串 ({})
  • preserve_code

    • 保留 html 代码标签和 markdown "```" 内的字符串
  • preserve_pre

    • 保留 html pre 标签内的字符串

许可证

本软件根据 MIT 许可证授权。 查看许可证