seosazi/php-html-parser

简单的爬取链接并解析它

1.2.11 2022-01-11 06:30 UTC

This package is auto-updated.

Last update: 2024-09-11 12:59:21 UTC


README

Build Status

快速便捷的PHP网页和HTML解析器

PHPHtmlParser是一个快速、便捷、简单的页面解析器,它允许您使用页面的任何数据,例如头部、重定向、代码状态、变体元标签、H标签、图像属性、链接等。目标是帮助您无任何问题地解析不同页面,并在您的程序中使用分类数据。

让我们开始吧...

安装PHP Html解析器

此软件包可以在packagist上找到,并且最好通过composer安装。我们支持php 5.0,7.0。安装Php-Html-Parser的推荐方法是使用Composer

composer.phar

 "require": {
    "seosazi/php-html-parser": "^1.0"
}

或者

 composer require seosazi/php-html-parser

用法

使用这个类非常简单,只需将页面地址放入其中即可获取其不同信息。以下是对该软件包的非常简单的使用示例。

// Assuming you installed from Composer:
use PHPHtmlParser\Crawl\WebPageProcessor;
require_once '/vendor/autoload.php';
$data = WebPageProcessor::onePageProcessed('https://www.your-website.com');
var_dump($data->getH1Tag());//get array of H1 tag
var_dump($data->getExternalLinks());//get array of all external link (Url class)
var_dump($data->getImageAlt());//get array of all image address and alt tag of them
var_dump($data->getHeader());//get array of header parameters

WebPageProcessor参数完整列表

Url类

我们创建了Url类,以提高使用URL的质量和速度。您可以使用它非常简单。

$data->getUrlInfo()->getUrl();
// if anchor text exists
$data->getUrlInfo()->getAnchorText();
$data->getUrlInfo()->getFabricUrl();
$data->getUrlInfo()->getHomeAddress();
// if parent exists
$data->getUrlInfo()->getParent();
//get all information in array
$data->getUrlInfo()->getUrlInfoArray();