thingston/crawler

基于PHP Guzzle HTTP Client的Web爬虫,支持并发以实现更快的操作。

0.7.0 2018-11-01 22:41 UTC

This package is auto-updated.

Last update: 2024-08-30 01:32:10 UTC


README

基于PHP Guzzle HTTP Client的Web爬虫,支持并发以实现更快的操作。包括支持任何内容类型的下载、链接分析器和响应观察器。

需求

Thingston Crawler需要

安装

使用Composer将Thingston Crawler添加到任何PHP项目中

composer require thingston/crawler

入门

只需创建一个新的Crawler实例,并使用任何公开URI调用start方法

use Thingston\Crawler;

$crawler = new Crawler();
$crawler->start('https://www.wikipedia.org/');

为了处理爬取过程中的结果,您可以添加尽可能多的观察者。观察者是一个实现Thingston/Crawler/Observer/ObserverInterface的具体类。

报告问题

如果您发现此代码有错误,请在https://github.com/thingston/crawler/issues上创建一个GitHub问题。

贡献者

开源是贡献的产物。如果您想为Thingston做出贡献,请按照以下步骤操作

  1. 将最新版本fork到您自己的仓库中。
  2. 编写您的更改或添加,并将它们提交。
  3. 遵循PSR-2编码风格标准。
  4. 确保您的更改有完整的单元测试覆盖率。
  5. 转到https://github.com/thingston/crawler/pulls并创建一个新的请求。

谢谢!

更改和版本

此代码的所有相关更改都记录在一个独立的日志文件中。

版本号遵循语义版本的建议。

许可证

Thingston代码在MIT许可证下维护。