README

PHPHtmlParser是一个简单、灵活的HTML解析器，它允许您使用任何CSS选择器选择标签，就像jQuery一样。目标是帮助开发需要快速、轻松抓取HTML的工具，无论其是否有效！

安装

使用composer安装最新版本。

$ composer require scorpio256/php-html-parser

此包可在packagist上找到，最好使用composer加载。我们支持php 7.2、7.3和7.4。

基本用法

您可以在测试目录中找到许多DOM解析器和其任何部分（您可能永远不会接触到的部分）的用法示例。测试使用PHPUnit进行，非常小，每个几行，是一个很好的起点。考虑到这一点，我仍将展示一些包的使用示例。以下是一个非常简单的包使用示例。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
$a = $dom->find('a')[0];
echo $a->text; // "click here"

上面的示例将输出“点击这里”。简单，不是吗？从DOM中获取相同结果有许多方法，例如 $dom->getElementsbyTag('a')[0] 或 $dom->find('a', 0)，这些都可以在测试或代码本身中找到。

财务支持PHP Html Parser

通过Tidelift Subscription获取支持Monolog并帮助资助项目。

Tidelift为您构建应用程序所使用的开源依赖项提供商业支持和维护。节省时间，降低风险，并提高代码健康度，同时支付您使用的确切依赖项的维护者。

加载文件

您还可以无缝地将文件加载到DOM中，而不是字符串，这更方便，这也是我预期大多数开发者将如何加载HTML的方式。以下示例取自我们的测试，并使用在那里找到的“big.html”文件。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadFromFile('tests/data/big.html');
$contents = $dom->find('.content-border');
echo count($contents); // 10

foreach ($contents as $content)
{
	// get the class attr
	$class = $content->getAttribute('class');
	
	// do something with the html
	$html = $content->innerHtml;

	// or refine the find some more
	$child   = $content->firstChild();
	$sibling = $child->nextSibling();
}

此示例从big.html加载HTML，这是一个在线找到的页面，并获取所有内容-border类进行处理。它还展示了您可以使用节点执行的一些操作，但这并不是节点可用的方法列表的详尽列表。

加载URL

加载URL的方式与您从文件中加载HTML的方式非常相似。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadFromUrl('http://google.com');
$html = $dom->outerHtml;

// or
$dom->loadFromUrl('http://google.com');
$html = $dom->outerHtml; // same result as the first example

默认情况下，loadFromUrl将使用实现\Psr\Http\Client\ClientInterface的实例来执行HTTP请求，并使用默认实现\Psr\Http\Message\RequestInterface来创建请求体。您可以在使用loadFromUrl时轻松实现自己的客户端或请求版本，以使用自定义HTTP连接。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;
use App\Services\MyClient;

$dom = new Dom;
$dom->loadFromUrl('http://google.com', null, new MyClient());
$html = $dom->outerHtml;

只要客户端对象正确实现接口，它就会使用该对象来获取URL的内容。

加载字符串

直接加载字符串也容易完成。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadStr('<html>String</html>');
$html = $dom->outerHtml;

选项

您还可以设置会影响解析器行为的解析选项。您可以使用Dom对象中的setOptions方法设置全局选项数组，或者通过将其添加到load方法（作为额外可选参数）来设置实例特定选项。

// Assuming you installed from Composer:
require "vendor/autoload.php";
use PHPHtmlParser\Dom;
use PHPHtmlParser\Options;

$dom = new Dom;
$dom->setOptions(
    // this is set as the global option level.
    (new Options())
        ->setStrict(true)
);

$dom->loadFromUrl('http://google.com', 
    (new Options())->setWhitespaceTextNode(false) // only applies to this load.
);

$dom->loadFromUrl('http://gmail.com'); // will not have whitespaceTextNode set to false.

目前我们支持12个选项。

严格

严格模式，默认为false，如果发现HTML不符合严格规范（所有标签必须有闭合标签，没有值的属性等），则会抛出StrickException异常。

whitespaceTextNode

whitespaceTextNode选项，默认为true，告诉解析器保存文本节点，即使节点的内容为空（只有空白）。将其设置为false将忽略文档中找到的所有只有空白的文本节点。

enforceEncoding

enforceEncoding选项，默认为null，将强制使用字符集来读取内容并返回该编码的内容。将其设置为null将触发尝试从给定的字符串内容中确定编码。

cleanupInput

将其设置为false以跳过解析器的整个清理阶段。如果将其设置为true，则将忽略以下3个选项。默认为true。

removeScripts

将其设置为false以跳过从文档体中删除脚本标签。这可能会产生不利影响。默认为true。

removeStyles

将其设置为false以跳过从文档体中删除样式标签。这可能会产生不利影响。默认为true。

preserveLineBreaks

如果设置为true，将保留换行符。如果设置为false，则换行符将在输入清理过程中被清理。默认为false。

removeDoubleSpace

如果您想保留文本节点内的空白，请将其设置为false。默认为true。

removeSmartyScripts

如果您想保留HTML内容中找到的smarty脚本，请将其设置为false。默认为true。

htmlSpecialCharsDecode

默认设置为false。将其设置为true将应用php函数htmlspecialchars_decode到所有属性值和文本节点。

selfClosing

此选项包含所有自闭合标签的数组。这些标签必须是自闭合的，如果启用了严格模式，解析器将强制它们是自闭合的。您可以通过使用严格模式时，将任何其他可以用作自闭合标签的标签添加到此列表中。您还可以从该数组中删除标签或完全清空它。

noSlash

此选项包含所有不能自闭合的标签的数组。列表最初为空，但您可以按需添加元素。

静态外观

您还可以为Dom对象安装静态外观。

PHPHtmlParser\StaticDom::mount();

Dom::loadFromFile('tests/big.hmtl');
$objects = Dom::find('.content-border');

上述PHP代码块执行与第一个示例相同的查找和加载操作，但它使用静态外观，该外观支持Dom对象中找到的所有公共方法。

修改DOM

您始终可以修改从任何加载方法创建的dom。要更改任何节点的属性，只需调用setAttribute方法即可。

use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
$a = $dom->find('a')[0];
$a->setAttribute('class', 'foo');
echo $a->getAttribute('class'); // "foo"

您还可以直接获取PHPHtmlParser\Dom\Tag类，并按您的需要进行操作。

use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
/** @var Dom\Node\AbstractNode $a */
$a   = $dom->find('a')[0];
$tag = $a->getTag();
$tag->setAttribute('class', 'foo');
echo $a->getAttribute('class'); // "foo"

您还可以从树中删除节点。只需在任意节点上调用delete方法即可将其从树中删除。请注意，您应在从`DOM`中删除节点后取消设置节点，否则它将占用内存，直到它被取消设置。

use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
/** @var Dom\Node\AbstractNode $a */
$a   = $dom->find('a')[0];
$a->delete();
unset($a);
echo $dom; // '<div class="all"><p>Hey bro, <br /> :)</p></div>');

您可以轻松修改TextNode对象的文本。请注意，如果您设置了编码，则新文本将使用现有编码进行编码。

use PHPHtmlParser\Dom;

$dom = new Dom;
$dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>');
/** @var Dom\Node\InnerNode $a */
$a   = $dom->find('a')[0];
$a->firstChild()->setText('biz baz');
echo $dom; // '<div class="all"><p>Hey bro, <a href="google.com">biz baz</a><br /> :)</p></div>'

scorpio256 / php-html-parser

维护者

详细信息