teamtnt/crawler

分布式爬虫架构

安装: 1

依赖: 0

建议者: 0

安全性: 0

星标: 9

关注者: 5

分支: 3

开放问题: 3

类型:项目

dev-master 2019-06-10 19:00 UTC

README

分布式爬虫

要求

安装

通过 Composer

composer require teamtnt/crawler

配置

每个实例都需要一个标识符。这可以在 .env 中添加

NODE_NAME="Instance 1"

域名喂入器需要以种子域名开始。之后,运行

php artisan crawler

抓取单个 URL

php artisan url:frontier www.example.com/something

爬虫拓扑结构

Crawler Topology

域名喂入器

Domain Feeder

单实例

Single Instance

URL 前沿

URL Frontier