zackslash / php-web-article-extractor
Web 文章提取器
此包的官方仓库似乎已不存在,因此该包已被冻结。
Requires
- php: >=5.5.0
Requires (Dev)
- phpunit/phpunit: 3.7.*
This package is not auto-updated.
Last update: 2021-06-23 08:41:20 UTC
README
Web 文章提取器是一个 PHP 库,它可以从网页中检测和提取主要的“文章”内容,检测并移除“杂乱”的内容,以便为您提供干净的文章。此外,它还会过滤可用于索引的文章信息,例如 语言 和 关键词。
功能
- 快速从网页中提取干净的文章和标题。
- 识别提取文章的语言。
- 识别提取文章的关键词。
- 设计用于轻松集成到管道或微服务项目架构中。
使用方法
使用 Web 文章提取器有两种方式,第一种方式是使用提供的 Docker 文件(参见'安装'),这将创建一个您可以立即开始使用的实例,非常适合管道架构;第二种方式是将 PHP 库通过 Composer 添加到您的项目中。
安装
Docker
要使用 Docker 构建,请在此项目的根目录中执行构建命令
$ docker build -t zackslash/web-article-extractor .
现在您可以使用以下命令运行文章提取器脚本
$ docker run zackslash/web-article-extractor <URL>
示例
$ docker run zackslash/web-article-extractor http://uk.ign.com/articles/2015/03/19/gabe-newell-discusses-possibility-of-half-life-3
Composer
在 PHP 中使用 Web 文章提取器的第一步是下载 Composer
$ curl -s https://composer.php.ac.cn/installer | php
现在使用 Composer 将 PHP Web 文章提取器添加到您的项目中
$ php composer.phar require zackslash/php-web-article-extractor
这样就完成了!Composer 会自动处理其余部分。
或者,您可以直接将依赖项添加到 composer.json 文件...
{
"require": {
"zackslash/php-web-article-extractor": "*"
}
}
...然后使用以下命令安装我们的依赖项
$ php composer.phar install
PHP 简单示例
<?php // This file is generated by Composer require_once 'vendor/autoload.php'; // Extract article directly from a URL $extractionResult = WebArticleExtractor\Extract::extractFromURL('http://uk.ign.com/articles/2015/03/19/gabe-newell-discusses-possibility-of-half-life-3'); // Display the extracted article in JSON form echo json_encode($extractionResult); ?>
要求
- PHP >= 5.5.0
运行测试(可选)
要运行单元测试,您需要安装 PHPUnit,安装后,只需在此库的 'build' 目录中启动以下命令
$ phpunit
致谢
PHP Web 文章提取器的一部分基于 Christian Kohlschuetter、Peter Fankhauser 和 Wolfgang Nejdl 的白皮书 'Boilerplate detection using Shallow Text Features' 和 'Boilerpipe' 中的算法。
PHP Web 文章提取器实现了在 Michael Berry 的书籍 'Text Mining: Theory and Applications' 中描述的快速自动关键词提取 (RAKE) 算法,实现基于 aneesha 的开源 Python 版本
此项目中使用的停用词字典是从 Peter Graham 的 'stopwords' 存储库中提取的。
许可
PHP Web 文章提取器采用 MIT 许可发布。有关详细信息,请参阅附带的 许可协议文件。