alirezasedghi/virastar

Virastar 是一款波斯文文本清理工具。

v1.0.2 2022-03-23 22:12 UTC

This package is auto-updated.

Last update: 2024-09-15 20:10:24 UTC


README

کتابخانه ویراستاری متن فارسی برای PHP
Virastar
ویراستار

Virastar 是一款波斯文文本清理工具。
PHP 专用波斯文文本编辑库

Required PHP Version Total Downloads Latest Stable Version License GitHub issues

此仓库是 brothersincode/virastar 的 PHP 版本。

官方网站和 波斯文使用指南

安装

composer require alirezasedghi/virastar

用法

// Require Composer's autoloader.
require 'vendor/autoload.php';

// Using Virastar namespace.
use Alirezasedghi\Virastar\Virastar;

$virastar   = new Virastar();
$text       = "فارسي را كمی درست تر می نويسيم";
$cleaned    = $virastar->cleanup($text);

echo $cleaned; // Outputs: "فارسی را کمی درست‌تر می‌نویسیم"

Virastar([选项])

选项

类型: array

$virastar   = new Virastar([
        "fix_english_numbers": false,
        "cleanup_line_breaks": false
    ]);

选项和规格

Virastar 提供了一系列选项来控制其行为。

normalize_eol

默认: true

  • 将 Windows 行结束符替换为 Unix 行结束符 (\n)

decode_html_entities

默认: true

  • 将数字和选定的 HTML 字符集转换为原始字符

fix_dashes

默认: true

  • 将三个连字符替换为 mdash
  • 将两个连字符替换为 ndash

fix_three_dots

默认: true

  • 删除点之间的空格
  • 将三个点替换为省略号字符

normalize_ellipsis

默认: true

  • 将多个省略号替换为一个
  • 将省略号后的 (空格|制表符|ZWNJ) 替换为一个空格

normalize_dates

默认: true

  • 以斜杠作为分隔符重新排序日期部分

fix_english_quotes_pairs

默认: true

  • 将英式引号对 (“”) 替换为其波斯文等效项 («»)

fix_english_quotes

默认: true

  • 将英式引号替换为其波斯文等效项

fix_hamzeh

默认: true

  • ه 后跟 (空格|ZWNJ|lrm) 再跟 ی 替换为 هٔ
  • ه 后跟 (空格|ZWNJ|lrm|无) 再跟 ء 替换为 هٔ
  • هٓ 或单字符 ۀ 替换为标准 هٔ

fix_hamzeh_arabic

默认: false

  • 将阿拉伯文哈姆扎 ة 转换为 هٔ

cleanup_rlm

默认: true

  • 将随波斯文字符后的从右到左标记转换为零宽非连接符 (ZWNJ)

cleanup_zwnj

默认: true

  • 将所有软连字符 (­) 转换为 zwnj
  • 删除多个 zwnj
  • 删除字符后面不连接的字符后的 zwnj
  • 删除数字、英语单词、空格和标点符号前后和中间的 zwnj
  • 删除每行开头和结尾的不必要 zwnj

fix_arabic_numbers

默认: true

  • 将阿拉伯数字替换为其波斯文等效项

fix_english_numbers

默认: true

  • 将英语数字替换为其波斯文等效项

fix_numeral_symbols

默认: true

  • 将英语百分号 (U+066A) 替换
  • 将数字之间的点替换为十进制分隔符 (U+066B)
  • 将数字之间的逗号替换为千位分隔符 (U+066C)

fix_misc_non_persian_chars

默认: true

  • 将阿拉伯文普通/波浪形卡夫替换为其波斯文等效项
  • 将阿拉伯文/乌尔都文/普什图文/维吾尔文耶替换为其波斯文等效项
  • 将库尔德文黑兹替换为其波斯文等效项

fix_punctuations

默认: true

  • ,, ; 替换为其波斯文等效项

fix_question_mark

默认: true

  • 将问号替换为其波斯文等效项

fix_prefix_spacing

默认: true

  • 在单词和前缀之间放置 zwnj
    • mi*, nemi*, bi*

fix_suffix_spacing

默认: true

  • 在单词和后缀之间放置 zwnj
    • *ha, *haye
    • *am, *at, *ash, *ei, *eid, *eem, *and, *man, *tan, *shan
    • *tar, *tari, *tarin
    • *hayee, *hayam, *hayat, *hayash, *hayetan, *hayeman, *hayeshan

fix_suffix_misc

默认: true

  • ه 后跟 ئی,然后跟 ی 替换为 ه‌ای

fix_spacing_for_braces_and_quotes

默认: true

  • 删除()[]{}“”«»内部空格以及多于一个的外部空格

fix_spacing_for_punctuations

默认: true

  • 删除标点符号前的空格
  • 删除标点符号后的多个空格,除非后面跟着换行符
  • 删除分隔时间部分的冒号后面的空格
  • 删除数字中的点后面的空格
  • 删除一些常见域名顶级域前的空格
  • 删除问号和感叹号之间的空格
  • 删除相同符号之间的空格

fix_diacritics

默认: true

  • 在重音字符之前清除zwnj
  • 清除多个重音字符
  • 清除重音字符之前的空格

remove_diacritics

默认: false

  • 删除所有重音字符

fix_persian_glyphs

默认: true

  • 将不正确的波斯字符转换为标准字符

fix_misc_spacing

默认: true

  • 删除Misc情况中括号前的空格
  • 删除包含数字的大括号前的空格

cleanup_spacing

默认: true

  • 将多个空格替换为一个空格
  • 清除换行符之间的空白和zwnj

cleanup_line_breaks

默认: true

  • 清除连续的两个或多个换行符

cleanup_begin_and_end

默认: true

  • 删除新行开头的空格、制表符、zwnj和nbsp
  • 从文本的开始和结束处删除空格、制表符、zwnj、方向标记和新行

markdown

markdown_normalize_braces

默认: true

  • 删除[]()之间的空格(将[text] (link)转换为[text](link)
  • 删除!和开括号之间的空格(将! [alt](src)转换为![alt](src)
  • 删除双()[]{}内的空格(将[[ text ]]转换为[[text]]
  • 删除双()[]{}之间的空格(将[[text] ]转换为[[text]]

markdown_normalize_lists

默认: true

  • 删除markdown列表中两项之间多余的行(以-*#开始的列表)

skip_markdown_ordered_lists_numbers_conversion

默认: false

  • 跳过将markdown有序列表中的英语数字转换为数字

aggressive editing

cleanup_extra_marks

默认: true

  • 将多个感叹号替换为一个感叹号
  • 将多个英语或波斯问号替换为一个问号
  • 重新排列连续的标记:?!转换为!?

kashidas_as_parenthetic

默认: true

  • 将括号中的kashidas替换为ndash

cleanup_kashidas

默认: true

  • 将数字之间的kashida转换为ndash
  • 删除非空白字符之间的所有kashida

extras

preserve_front_matter

默认: true

  • 保留文本中的前缀数据

preserve_HTML

默认: true

  • 保留文本中的所有HTML标签

preserve_comments

默认: true

  • 保留文本中的所有HTML注释

preserve_entities

默认: true

  • 保留文本中的所有HTML实体

preserve_URIs

默认: true

  • 保留文本中的所有URI字符串

preserve_brackets

默认: false

  • 保留方括号内的字符串([]

preserve_braces

默认: false

  • 保留大括号内的字符串({}

preserve_nbsp

默认: true

  • 保留文本中的所有不间断空格实体

License

本软件受MIT许可证许可。 查看许可证