wykleph / html-scraper
一个API,用于获取由webscraper.io扩展生成的json sitemap,并模拟webscraper.io的抓取行为。
Requires
- symfony/css-selector: 2.8.2
- symfony/dom-crawler: 2.8.2
- symfony/var-dumper: 2.8.2
This package is not auto-updated.
Last update: 2024-09-14 18:52:57 UTC
README
一个API,用于获取由webscraper.io扩展生成的json sitemap,并在PHP中模拟webscraper.io的抓取行为。
这可以快速创建抓取模板。
我没有与webscraper.io的关联,所以请参考他们的文档和论坛来获取有关webscraper.io的任何信息。
安装: composer require wykleph/html-scraper
注意:尚未支持子选择器,但已在计划中!
使用时,使用composer引入此项目,然后下载webscraper.io Chrome扩展。这是我们用来生成我们的HTML爬取sitemap的。
一旦您有了webscraper.io扩展,您可能想学习如何使用webscraper.io扩展。
一旦您为您的sitemap设置了一些选择器,点击Sitemap (sitemap-name)->导出Sitemap。json输出就是我们用来实例化SiteMap对象的内容。
$SiteMap = new SiteMap($json);
下一步是实例化一个HtmlScraper对象,以消费SiteMap和您想要爬取的HTML。
$scraper = new HtmlScraper($SiteMap, $html); $selections = $scraper->getSelections();
或
$selections = new HtmlScraper($SiteMap, $html)->getSelections();
$selections数组现在包含了您为给定html使用的sitemap的所有选择。
$selections数组还应包含您使用webscraper.io设置的选择器的名称,因此访问选择器就像获取$selections['username-field-name']或$selections['phone']一样简单。