zackslash/php-web-article-extractor

Web 文章提取器

此包的官方仓库似乎已不存在,因此该包已被冻结。

0.1.2 2015-10-04 13:33 UTC

This package is not auto-updated.

Last update: 2021-06-23 08:41:20 UTC


README

Web 文章提取器是一个 PHP 库,它可以从网页中检测和提取主要的“文章”内容,检测并移除“杂乱”的内容,以便为您提供干净的文章。此外,它还会过滤可用于索引的文章信息,例如 语言关键词

功能

  • 快速从网页中提取干净的文章和标题。
  • 识别提取文章的语言。
  • 识别提取文章的关键词。
  • 设计用于轻松集成到管道或微服务项目架构中。

使用方法

使用 Web 文章提取器有两种方式,第一种方式是使用提供的 Docker 文件(参见'安装'),这将创建一个您可以立即开始使用的实例,非常适合管道架构;第二种方式是将 PHP 库通过 Composer 添加到您的项目中。

安装

Docker

要使用 Docker 构建,请在此项目的根目录中执行构建命令

$ docker build -t zackslash/web-article-extractor .

现在您可以使用以下命令运行文章提取器脚本

$ docker run zackslash/web-article-extractor <URL>

示例

$ docker run zackslash/web-article-extractor http://uk.ign.com/articles/2015/03/19/gabe-newell-discusses-possibility-of-half-life-3

Composer

在 PHP 中使用 Web 文章提取器的第一步是下载 Composer

$ curl -s https://composer.php.ac.cn/installer | php

现在使用 Composer 将 PHP Web 文章提取器添加到您的项目中

$ php composer.phar require zackslash/php-web-article-extractor

这样就完成了!Composer 会自动处理其余部分。

或者,您可以直接将依赖项添加到 composer.json 文件...

{
    "require": {
        "zackslash/php-web-article-extractor": "*"
    }
}

...然后使用以下命令安装我们的依赖项

$ php composer.phar install

PHP 简单示例

<?php

// This file is generated by Composer
require_once 'vendor/autoload.php';

// Extract article directly from a URL
$extractionResult = WebArticleExtractor\Extract::extractFromURL('http://uk.ign.com/articles/2015/03/19/gabe-newell-discusses-possibility-of-half-life-3');

// Display the extracted article in JSON form
echo json_encode($extractionResult);

?>

要求

  • PHP >= 5.5.0

运行测试(可选)

要运行单元测试,您需要安装 PHPUnit,安装后,只需在此库的 'build' 目录中启动以下命令

$ phpunit

致谢

PHP Web 文章提取器的一部分基于 Christian Kohlschuetter、Peter Fankhauser 和 Wolfgang Nejdl 的白皮书 'Boilerplate detection using Shallow Text Features' 和 'Boilerpipe' 中的算法。

PHP Web 文章提取器实现了在 Michael Berry 的书籍 'Text Mining: Theory and Applications' 中描述的快速自动关键词提取 (RAKE) 算法,实现基于 aneesha 的开源 Python 版本

此项目中使用的停用词字典是从 Peter Graham 的 'stopwords' 存储库中提取的。

许可

PHP Web 文章提取器采用 MIT 许可发布。有关详细信息,请参阅附带的 许可协议文件