wykleph/html-scraper

一个API,用于获取由webscraper.io扩展生成的json sitemap,并模拟webscraper.io的抓取行为。

v0.1.0 2016-02-04 20:25 UTC

This package is not auto-updated.

Last update: 2024-09-14 18:52:57 UTC


README

一个API,用于获取由webscraper.io扩展生成的json sitemap,并在PHP中模拟webscraper.io的抓取行为。

这可以快速创建抓取模板。

我没有与webscraper.io的关联,所以请参考他们的文档和论坛来获取有关webscraper.io的任何信息。

安装: composer require wykleph/html-scraper

注意:尚未支持子选择器,但已在计划中!

使用时,使用composer引入此项目,然后下载webscraper.io Chrome扩展。这是我们用来生成我们的HTML爬取sitemap的。

一旦您有了webscraper.io扩展,您可能想学习如何使用webscraper.io扩展。

一旦您为您的sitemap设置了一些选择器,点击Sitemap (sitemap-name)->导出Sitemap。json输出就是我们用来实例化SiteMap对象的内容。

$SiteMap = new SiteMap($json);

下一步是实例化一个HtmlScraper对象,以消费SiteMap和您想要爬取的HTML。

$scraper = new HtmlScraper($SiteMap, $html);
$selections = $scraper->getSelections();

$selections = new HtmlScraper($SiteMap, $html)->getSelections();

$selections数组现在包含了您为给定html使用的sitemap的所有选择。

$selections数组还应包含您使用webscraper.io设置的选择器的名称,因此访问选择器就像获取$selections['username-field-name']$selections['phone']一样简单。