chrisullyott / php-url-extractor
从HTML内容中提取URL。
v0.2.3
2018-09-21 06:29 UTC
Requires
- php: >=5.4.0
README
从HTML内容中提取URL,可应用可选过滤器。
安装
使用Composer
$ composer require chrisullyott/php-url-extractor
用法
$html = file_get_contents('about-us.html');
$extractor = new UrlExtractor($html);
$extractor->setHomeUrl('http://www.site.com');
$extractor->setFilesOnly(true);
$urls = $extractor->getUrls();
print_r($urls);
(
[0] => stdClass Object
(
[attribute] => href
[value] => /_assets/img/icons/favicon-96.png
[url] => https://www.site.com/_assets/img/icons/favicon-96.png
)
...
选项
setAttributeFilter (数组)
#getUrls
方法创建一个DOMDocument并检查给定元素的属性,如src
和href
,以查找您可能感兴趣的URL。使用#setAttributeFilter
用您自己的属性覆盖默认属性集。
setHomeUrl (字符串)
提供主页URL将过滤结果仅限于域本地。任何以一个斜杠/
开始的相对URL(不是两个斜杠)也视为本地。设置此选项也将为#getUrls
方法返回的对象构建url
属性(一个绝对URL)。
setAlternateDomains (数组)
与#setHomeUrl
一起使用。如果设置,返回的URL将包括那些域名在数组中的URL。在这个数组中,您可以输入字符串,如media.site.com
和/或正则表达式,如/.*\.site\.com/
。
setFilesOnly (布尔值)
是否只返回具有文件扩展名的URL。
setIgnoredExtensions (数组)
与#setFilesOnly
一起使用。排除数组中包含的文件扩展名的URL。