seosazi / php-html-parser
简单的爬取链接并解析它
1.2.11
2022-01-11 06:30 UTC
Requires
- php: >=7.2.0
- danielstjules/stringy: ~3.0.1
- guzzlehttp/guzzle: ^7.0.1
- voku/simple_html_dom: ^4.7
Requires (Dev)
- phpunit/phpunit: 9.2
README
快速便捷的PHP网页和HTML解析器
PHPHtmlParser是一个快速、便捷、简单的页面解析器,它允许您使用页面的任何数据,例如头部、重定向、代码状态、变体元标签、H标签、图像属性、链接等。目标是帮助您无任何问题地解析不同页面,并在您的程序中使用分类数据。
让我们开始吧...
安装PHP Html解析器
此软件包可以在packagist上找到,并且最好通过composer安装。我们支持php 5.0,7.0。安装Php-Html-Parser的推荐方法是使用Composer。
composer.phar
"require": {
"seosazi/php-html-parser": "^1.0"
}
或者
composer require seosazi/php-html-parser
用法
使用这个类非常简单,只需将页面地址放入其中即可获取其不同信息。以下是对该软件包的非常简单的使用示例。
// Assuming you installed from Composer: use PHPHtmlParser\Crawl\WebPageProcessor; require_once '/vendor/autoload.php'; $data = WebPageProcessor::onePageProcessed('https://www.your-website.com'); var_dump($data->getH1Tag());//get array of H1 tag var_dump($data->getExternalLinks());//get array of all external link (Url class) var_dump($data->getImageAlt());//get array of all image address and alt tag of them var_dump($data->getHeader());//get array of header parameters
WebPageProcessor参数完整列表
Url类
我们创建了Url类,以提高使用URL的质量和速度。您可以使用它非常简单。
$data->getUrlInfo()->getUrl(); // if anchor text exists $data->getUrlInfo()->getAnchorText(); $data->getUrlInfo()->getFabricUrl(); $data->getUrlInfo()->getHomeAddress(); // if parent exists $data->getUrlInfo()->getParent(); //get all information in array $data->getUrlInfo()->getUrlInfoArray();