paquettg / php-html-parser
HTML DOM 解析器。它允许您操作HTML。使用选择器在HTML页面中查找标签,就像jQuery一样。
Requires
- php: >=7.2
- ext-curl: *
- ext-mbstring: *
- ext-zlib: *
- guzzlehttp/guzzle: ^7.0
- guzzlehttp/psr7: ^1.6
- myclabs/php-enum: ^1.7
- paquettg/string-encode: ~1.0.0
- php-http/httplug: ^2.1
Requires (Dev)
- friendsofphp/php-cs-fixer: ^2.16
- infection/infection: ^0.13.4
- mockery/mockery: ^1.2
- phan/phan: ^2.4
- phpunit/phpunit: ^7.5.1
README
PHPHtmlParser 是一个简单、灵活的HTML解析器,允许您使用任何CSS选择器选择标签,就像jQuery一样。目标是帮助开发需要快速、方便地抓取HTML的工具,无论它是否有效!
安装
使用composer安装最新版本。
$ composer require paquettg/php-html-parser
此包可在packagist上找到,最好使用composer加载。我们支持php 7.2、7.3和7.4。
基本用法
您可以在测试目录中找到许多如何使用DOM解析器和其任何部分(您可能永远不会接触到的)的示例。测试是用PHPUnit完成的,非常小,每个只有几行,是一个很好的起点。鉴于这一点,我仍然会展示一些如何使用该包的示例。以下是一个使用该包的非常简单的示例。
// Assuming you installed from Composer: require "vendor/autoload.php"; use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>'); $a = $dom->find('a')[0]; echo $a->text; // "click here"
上面的示例将输出 "点击这里"。简单吗?您可以从DOM中以多种方式获得相同的结果,例如 $dom->getElementsbyTag('a')[0]
或 $dom->find('a', 0)
,这些都可以在测试或代码本身中找到。
财务支持PHP Html Parser
通过Tidelift Subscription 获取支持Monolog并资助该项目。
Tidelift 为您构建应用程序时使用的开源依赖项提供商业支持和维护。节省时间,降低风险,并提高代码健康度,同时为使用的确切依赖项的维护者付费。
加载文件
您还可以无缝地将文件加载到DOM中,而不是字符串,这更方便,这也是我预期大多数开发者将如何加载HTML的方式。以下示例取自我们的测试,并使用在该处找到的 "big.html" 文件。
// Assuming you installed from Composer: require "vendor/autoload.php"; use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadFromFile('tests/data/big.html'); $contents = $dom->find('.content-border'); echo count($contents); // 10 foreach ($contents as $content) { // get the class attr $class = $content->getAttribute('class'); // do something with the html $html = $content->innerHtml; // or refine the find some more $child = $content->firstChild(); $sibling = $child->nextSibling(); }
此示例加载了来自 big.html 的HTML,这是一个在线的页面,并获取所有内容边框类以进行处理。它还展示了您可以对一个节点执行的一些操作,但它不是节点可用的方法列表的详尽清单。
加载URL
加载URL的方式与从文件加载HTML的方式非常相似。
// Assuming you installed from Composer: require "vendor/autoload.php"; use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadFromUrl('http://google.com'); $html = $dom->outerHtml; // or $dom->loadFromUrl('http://google.com'); $html = $dom->outerHtml; // same result as the first example
默认情况下,loadFromUrl 将使用 \Psr\Http\Client\ClientInterface
的实现来执行HTTP请求,并使用默认的 \Psr\Http\Message\RequestInterface
实现来创建请求体。您可以通过实现自己的客户端或请求来轻松使用loadFromUrl,以使用自定义HTTP连接。
// Assuming you installed from Composer: require "vendor/autoload.php"; use PHPHtmlParser\Dom; use App\Services\MyClient; $dom = new Dom; $dom->loadFromUrl('http://google.com', null, new MyClient()); $html = $dom->outerHtml;
只要客户端对象正确实现了接口,它就会使用该对象来获取URL的内容。
加载字符串
直接加载字符串也很容易。
// Assuming you installed from Composer: require "vendor/autoload.php"; use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadStr('<html>String</html>'); $html = $dom->outerHtml;
选项
您还可以设置解析选项,这将影响解析引擎的行为。您可以使用Dom
对象中的setOptions
方法设置全局选项数组,或者通过将选项作为额外(可选)参数添加到load
方法中设置实例特定选项。
// Assuming you installed from Composer: require "vendor/autoload.php"; use PHPHtmlParser\Dom; use PHPHtmlParser\Options; $dom = new Dom; $dom->setOptions( // this is set as the global option level. (new Options()) ->setStrict(true) ); $dom->loadFromUrl('http://google.com', (new Options())->setWhitespaceTextNode(false) // only applies to this load. ); $dom->loadFromUrl('http://gmail.com'); // will not have whitespaceTextNode set to false.
目前我们支持12个选项。
严格
默认情况下为false的Strict
选项,如果发现HTML不符合严格规范(所有标签必须有闭合标签,没有值的属性等),则会抛出StrickException
异常。
空白文本节点
默认为true的空白文本节点选项告诉解析器保存文本节点,即使节点的内容为空(只有空白)。将其设置为false将忽略文档中找到的所有仅包含空白的文本节点。
强制编码
默认为null的enforceEncoding
选项将强制使用字符集读取内容并返回编码后的内容。将其设置为null将触发尝试从给定的字符串内容中确定编码。
清理输入
将此选项设置为false
以跳过解析器的整个清理阶段。如果设置为true,则忽略以下3个选项。默认为true
。
移除脚本
将此选项设置为false
以跳过从文档主体中移除脚本标签。这可能会产生不利影响。默认为true
。
移除样式
将此选项设置为false
以跳过从文档主体中移除样式标签。这可能会产生不利影响。默认为true
。
保留换行符
如果设置为true
,将保留换行符。如果设置为false
,则将换行符作为输入清理过程的一部分进行清理。默认为false
。
移除双空格
如果您想保留文本节点中的空白,请将此选项设置为false
。默认设置为true
。
移除Smarty脚本
如果您想保留HTML内容中找到的Smarty脚本,请将此选项设置为false
。默认设置为true
。
HTML特殊字符解码
默认设置为false
。将其设置为true
将应用php函数htmlspecialchars_decode
到所有属性值和文本节点。
自闭合
此选项包含所有自闭合标签的数组。这些标签必须自闭合,并且如果开启了严格模式,解析器将强制它们自闭合。您可以使用严格模式时作为自闭合标签使用的任何附加标签更新此列表。您还可以从该数组中删除标签或将其完全清空。
无斜杠
此选项包含所有不能自闭合的标签的数组。列表默认为空,但您可以按需添加元素。
静态外观
您还可以为Dom对象安装静态外观。
PHPHtmlParser\StaticDom::mount(); Dom::loadFromFile('tests/big.hmtl'); $objects = Dom::find('.content-border');
上面的PHP块与第一个示例执行相同的查找和加载操作,但它使用的是静态外观,它支持Dom对象中找到的所有公共方法。
修改Dom
您始终可以修改由任何加载方法创建的dom。要更改任何节点的属性,只需调用setAttribute
方法。
use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>'); $a = $dom->find('a')[0]; $a->setAttribute('class', 'foo'); echo $a->getAttribute('class'); // "foo"
您还可以直接获取PHPHtmlParser\Dom\Tag
类,并按您的需要对其进行操作。
use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>'); /** @var Dom\Node\AbstractNode $a */ $a = $dom->find('a')[0]; $tag = $a->getTag(); $tag->setAttribute('class', 'foo'); echo $a->getAttribute('class'); // "foo"
还可以从树中删除节点。只需在任何节点上调用delete
方法即可将其从树中删除。请注意,在从`DOM`中删除节点后,您应该取消设置节点,因为如果不取消设置,它将仍然占用内存。
use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>'); /** @var Dom\Node\AbstractNode $a */ $a = $dom->find('a')[0]; $a->delete(); unset($a); echo $dom; // '<div class="all"><p>Hey bro, <br /> :)</p></div>');
可以轻松修改TextNode
对象的文本。请注意,如果您设置了编码,则新文本将使用现有编码进行编码。
use PHPHtmlParser\Dom; $dom = new Dom; $dom->loadStr('<div class="all"><p>Hey bro, <a href="google.com">click here</a><br /> :)</p></div>'); /** @var Dom\Node\InnerNode $a */ $a = $dom->find('a')[0]; $a->firstChild()->setText('biz baz'); echo $dom; // '<div class="all"><p>Hey bro, <a href="google.com">biz baz</a><br /> :)</p></div>'