chrisullyott/php-url-extractor

从HTML内容中提取URL。

v0.2.3 2018-09-21 06:29 UTC

This package is auto-updated.

Last update: 2024-08-29 04:18:40 UTC


README

Latest Stable Version Total Downloads

从HTML内容中提取URL,可应用可选过滤器。

安装

使用Composer

$ composer require chrisullyott/php-url-extractor

用法

$html = file_get_contents('about-us.html');

$extractor = new UrlExtractor($html);
$extractor->setHomeUrl('http://www.site.com');
$extractor->setFilesOnly(true);

$urls = $extractor->getUrls();
print_r($urls);
(
    [0] => stdClass Object
        (
            [attribute] => href
            [value] => /_assets/img/icons/favicon-96.png
            [url] => https://www.site.com/_assets/img/icons/favicon-96.png
        )
    ...

选项

setAttributeFilter (数组)

#getUrls方法创建一个DOMDocument并检查给定元素的属性,如srchref,以查找您可能感兴趣的URL。使用#setAttributeFilter用您自己的属性覆盖默认属性集。

setHomeUrl (字符串)

提供主页URL将过滤结果仅限于域本地。任何以一个斜杠/开始的相对URL(不是两个斜杠)也视为本地。设置此选项也将为#getUrls方法返回的对象构建url属性(一个绝对URL)。

setAlternateDomains (数组)

#setHomeUrl一起使用。如果设置,返回的URL将包括那些域名在数组中的URL。在这个数组中,您可以输入字符串,如media.site.com和/或正则表达式,如/.*\.site\.com/

setFilesOnly (布尔值)

是否只返回具有文件扩展名的URL。

setIgnoredExtensions (数组)

#setFilesOnly一起使用。排除数组中包含的文件扩展名的URL。