4n70w4/php-text-words-parser

此包的最新版本(1.0.0)没有可用的许可信息。

在PHP中将HTML文本解析为句子和单词。

1.0.0 2019-09-20 06:45 UTC

This package is not auto-updated.

Last update: 2024-09-15 06:34:12 UTC


README

目的

分析文本中的单词以实现某些算法(例如,文本相似度)的使用,全文搜索引擎的索引,显示文本片段以及在搜索结果中突出显示找到的单词

特性

  1. 获取文本中所有单词的顺序列表
  2. 获取文本中所有句子和单词的顺序列表
  3. 获取文本中唯一单词及其在文本中出现次数的权重
  4. 文本规范化(详细说明见下文)
  5. 将单词的绝对位置分配到规范化文本中的绝对字节位置
  6. 支持多种语言同时使用
  7. 与世界上任何语言一起工作,使用的编码为UTF-8。

术语

  1. 规范化文本 - 保留大小写、段落和换行符的文本,但没有HTML标签和实体、制表符、重音和软换行符
  2. 单词 - 字母或数字的序列(不允许混合!)
  3. 单词的绝对位置 - 在规范化文本中单词的顺序号
  4. 单词的相对位置 - 在规范化文本中单词相对于句子的顺序号
  5. 单词的字节位置 - 在规范化文本中单词的字节偏移量

示例

$wp = new Text_WordsParser(array('Latin', 'Cyrillic'));
$html = file_get_contents('test.html');
$text = $wp->parse($html, $words, $sentences, $uniques, $offset_map);
var_dump($text, $words, $sentences, $uniques, $offset_map);

有用链接

  1. http://www.evertype.com/alphabets/index.html 欧洲字母表
  2. http://ru.wikipedia.org/wiki/TF-IDF 文本中单词重要性的评估
  3. http://morpher.ru/Description.aspx 自动屈折技术
  4. http://phpmorphy.sourceforge.net/dokuwiki/demo PHP语法的形态分析库,phpMorphy工作演示(例如,输入“本土”或“区域”)
  5. http://packages.python.org/pymorphy/ 形态分析器

项目从 http://code.google.com/p/php-text-words-parser 导出