ppajer/webscraper

一个用PHP编写的简单网页抓取器,支持并行处理和HTML5。

dev-master 2020-07-19 19:28 UTC

This package is auto-updated.

Last update: 2024-09-20 08:20:50 UTC


README

一个用PHP编写的简单网页抓取器,支持并行处理和HTML5。

安装

要开始使用此包,请将其添加到您的 composer.json 文件中并调用 composer install,然后包含生成的 autoload.php 文件到您的项目中。或者,直接下载并将该包及其依赖项直接包含到您的项目中。

依赖项

用法

抓取器接受2个输入:一个定义要收集的资源的选择项数组,以及一个定义我们要在那些资源中查找的数据的提取规则数组。有关选择项提取规则的更多信息,请阅读相应的文档。

require 'autoload.php';

$rules = 'path/to/rules.json';
$options = [
	'foo' => ['URL' => 'https://...']
];

$scraper = new WebScraper($rules);
$result = $scraper->start($options);