cspdabbler/php-html-parser

HTML DOM 解析器。它允许您操作 HTML。使用选择器在 HTML 页面上查找标签,就像 jQuery 一样。

1.8.1 2018-12-21 07:45 UTC

This package is auto-updated.

Last update: 2024-09-28 05:07:27 UTC


README

注意:这是 paquettg/php-html-parser 的分支。项目仅处于被动维护状态。接受 pull request。如果您愿意维护此包,请创建一个 issue 并告诉我们。

Build Status Coverage Status Scrutinizer Code Quality

PHPHtmlParser 是一个简单、灵活的 HTML 解析器,允许您使用任何 CSS 选择器选择标签,就像 jQuery 一样。目标是帮助开发需要快速、方便地抓取 HTML(无论其是否有效)的工具!该项目最初由 sunra/php-simple-html-dom-parser 支持,但支持似乎已停止,因此该项目是对其之前工作的改编。

安装

此包可在 packagist 上找到,并且最好使用 composer 加载。我们支持 php 5.6、7.0 和 hhvm 2.3。

用法

您可以在测试目录中找到许多如何使用 DOM 解析器和其任何部分(您可能永远不会触摸)的示例。测试是用 PHPUnit 进行的,非常小,每个只有几行,是一个很好的起点。考虑到这一点,我仍将展示一些如何使用此包的示例。以下是一个使用此包的非常简单的示例。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->load('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
$a = $dom->find('a')[0];
echo $a->text; // "click here"

上述代码将输出 "click here"。简单吗?从 dome 获取相同结果的方法有很多,例如 $dom->getElementsbyTag('a')[0]$dom->find('a', 0),这些都可以在测试或代码本身中找到。

加载文件

您还可以无缝地将文件加载到 DOM 中,而不是字符串,这要方便得多,这也是我预期大多数开发者将加载 HTML 的方式。以下示例来自我们的测试,并使用该目录中找到的 "big.html" 文件。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadFromFile('tests/big.html');
$contents = $dom->find('.content-border');
echo count($contents); // 10

foreach ($contents as $content)
{
	// get the class attr
	$class = $content->getAttribute('class');
	
	// do something with the html
	$html = $content->innerHtml;

	// or refine the find some more
	$child   = $content->firstChild();
	$sibling = $child->nextSibling();
}

此示例加载了来自 big.html 的 HTML,一个在线的实时页面,并处理了所有内容-border 类。它还展示了您可以使用节点做一些事情,但这并不是节点可用的方法的详尽列表。

或者,您始终可以使用 load() 方法来加载文件。它将尝试使用 file_exists 查找文件,如果成功,将为您调用 loadFromFile()。同样适用于 URL 和 loadFromUrl() 方法。

加载 URL

加载 URL 与从文件加载 HTML 的方式非常相似。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadFromUrl('http://google.com');
$html = $dom->outerHtml;

// or
$dom->load('http://google.com');
$html = $dom->outerHtml; // same result as the first example

使 loadFromUrl 方法值得注意的是 PHPHtmlParser\CurlInterface 参数,一个可选的第二个参数。默认情况下,我们使用 PHPHtmlParser\Curl 类获取 URL 的内容。另一方面,您也可以注入自己的 CurlInterface 实现,我们将尝试使用您想要的任何工具/设置来加载 URL,由您决定。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;
use App\Services\Connector;

$dom = new Dom;
$dom->loadFromUrl('http://google.com', [], new Connector);
$html = $dom->outerHtml;

只要连接器对象正确实现了 PHPHtmlParser\CurlInterface 接口,它就会使用该对象来获取 URL 的内容,而不是默认的 PHPHtmlParser\Curl 类。

加载字符串

直接加载字符串,无需在 load() 中进行检查,也很容易完成。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadStr('<html>String</html>', []);
$html = $dom->outerHtml;

如果字符串过长,根据您的文件系统,load() 方法可能会抛出警告。如果发生这种情况,您可以调用上述方法来绕过 load() 方法中的 is_file() 检查。

选项

您还可以设置解析选项,这将影响解析器的行为。您可以使用 Dom 对象中的 setOptions 方法设置全局选项数组,或者将实例特定的选项作为额外(可选)参数添加到 load 方法中。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->setOptions([
	'strict' => true, // Set a global option to enable strict html parsing.
]);

$dom->load('http://google.com', [
	'whitespaceTextNode' => false, // Only applies to this load.
]);

$dom->load('http://gmail.com'); // will not have whitespaceTextNode set to false.

目前我们支持 7 个选项。

严格

严格(默认为 false),如果它发现 HTML 不符合严格规范(所有标签必须有关闭标签,没有值的属性等),则会抛出 StrickException

空白文本节点

空白文本节点(默认为 true)选项告诉解析器即使节点的内容为空(只有空白)也要保存文本节点。将其设置为 false 将忽略文档中找到的所有只包含空白的文本节点。

强制编码

强制编码(默认为 null)选项将强制使用字符集读取内容并返回该编码的内容。将其设置为 null 将尝试从给定的字符串内容中确定编码。

清理输入

将此设置为 true 以跳过解析器的整个清理阶段。如果设置为 true,则将忽略下一个 3 个选项。默认为 false

移除脚本

将此设置为 false 以跳过从文档主体中移除脚本标签。这可能会产生不利影响。默认为 true

移除样式

将此设置为 false 以跳过从文档主体中移除样式标签。这可能会产生不利影响。默认为 true

保留换行符

如果设置为 true,则保留换行符。如果设置为 false,则将换行符作为输入清理过程的一部分清理。默认为 false

静态外观

您还可以为 Dom 对象安装静态外观。

PHPHtmlParser\StaticDom::mount();

Dom::load('tests/big.hmtl');
$objects = Dom::find('.content-border');

上面的 PHP 块执行与第一个示例相同的查找和加载,但它使用的是静态外观,它支持 Dom 对象中找到的所有公共方法。

修改 Dom

您始终可以修改由任何加载方法创建的 dom。要更改任何节点的属性,只需调用 setAttribute 方法。

$dom = new Dom;
$dom->load('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
$a = $dom->find('a')[0];
$a->setAttribute('class', 'foo');
echo $a->getAttribute('class'); // "foo"

您还可以直接获取 PHPHtmlParser\Dom\Tag 类并按需操作它。

$dom = new Dom;
$dom->load('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
$a   = $dom->find('a')[0];
$tag = $a->getTag();
$tag->setAttribute('class', 'foo');
echo $a->getAttribute('class'); // "foo"

您还可以从树中删除节点。只需在任意节点上调用 delete 方法即可将其从树中删除。请注意,您应该在从 `DOM` 中删除节点后取消设置节点,否则它将占用内存直到取消设置。

$dom = new Dom;
$dom->load('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
$a   = $dom->find('a')[0];
$a->delete();
unset($a);
echo $dom; // '<div class="all"><p>Hey bro, <br /> :)</p></div>');