README

从HTML内容中提取URL，可应用可选过滤器。

安装

$ composer require chrisullyott/php-url-extractor

用法

$html = file_get_contents('about-us.html');

$extractor = new UrlExtractor($html);
$extractor->setHomeUrl('http://www.site.com');
$extractor->setFilesOnly(true);

$urls = $extractor->getUrls();
print_r($urls);

(
    [0] => stdClass Object
        (
            [attribute] => href
            [value] => /_assets/img/icons/favicon-96.png
            [url] => https://www.site.com/_assets/img/icons/favicon-96.png
        )
    ...

选项

setAttributeFilter (数组)

#getUrls方法创建一个DOMDocument并检查给定元素的属性，如src和href，以查找您可能感兴趣的URL。使用#setAttributeFilter用您自己的属性覆盖默认属性集。

setHomeUrl (字符串)

提供主页URL将过滤结果仅限于域本地。任何以一个斜杠/开始的相对URL（不是两个斜杠）也视为本地。设置此选项也将为#getUrls方法返回的对象构建url属性（一个绝对URL）。

setAlternateDomains (数组)

与#setHomeUrl一起使用。如果设置，返回的URL将包括那些域名在数组中的URL。在这个数组中，您可以输入字符串，如media.site.com和/或正则表达式，如/.*\.site\.com/。

setFilesOnly (布尔值)

是否只返回具有文件扩展名的URL。

setIgnoredExtensions (数组)

与#setFilesOnly一起使用。排除数组中包含的文件扩展名的URL。

chrisullyott / php-url-extractor

维护者

详细信息