4n70w4 / php-text-words-parser
此包的最新版本(1.0.0)没有可用的许可信息。
在PHP中将HTML文本解析为句子和单词。
1.0.0
2019-09-20 06:45 UTC
Requires
- php: *
This package is not auto-updated.
Last update: 2024-09-15 06:34:12 UTC
README
目的
分析文本中的单词以实现某些算法(例如,文本相似度)的使用,全文搜索引擎的索引,显示文本片段以及在搜索结果中突出显示找到的单词
特性
- 获取文本中所有单词的顺序列表
- 获取文本中所有句子和单词的顺序列表
- 获取文本中唯一单词及其在文本中出现次数的权重
- 文本规范化(详细说明见下文)
- 将单词的绝对位置分配到规范化文本中的绝对字节位置
- 支持多种语言同时使用
- 与世界上任何语言一起工作,使用的编码为UTF-8。
术语
- 规范化文本 - 保留大小写、段落和换行符的文本,但没有HTML标签和实体、制表符、重音和软换行符
- 单词 - 字母或数字的序列(不允许混合!)
- 单词的绝对位置 - 在规范化文本中单词的顺序号
- 单词的相对位置 - 在规范化文本中单词相对于句子的顺序号
- 单词的字节位置 - 在规范化文本中单词的字节偏移量
示例
$wp = new Text_WordsParser(array('Latin', 'Cyrillic'));
$html = file_get_contents('test.html');
$text = $wp->parse($html, $words, $sentences, $uniques, $offset_map);
var_dump($text, $words, $sentences, $uniques, $offset_map);
有用链接
- http://www.evertype.com/alphabets/index.html 欧洲字母表
- http://ru.wikipedia.org/wiki/TF-IDF 文本中单词重要性的评估
- http://morpher.ru/Description.aspx 自动屈折技术
- http://phpmorphy.sourceforge.net/dokuwiki/demo PHP语法的形态分析库,phpMorphy工作演示(例如,输入“本土”或“区域”)
- http://packages.python.org/pymorphy/ 形态分析器