crwlr / crawler
网络爬虫和抓取库。
v2.0.0-beta.2
2024-08-26 10:28 UTC
Requires
- php: ^8.1
- ext-dom: *
- adbario/php-dot-notation: ^3.1
- chrome-php/chrome: ^1.7
- crwlr/html-2-text: ^0.1.0
- crwlr/robots-txt: ^1.1
- crwlr/schema-org: ^0.2|^0.3
- crwlr/url: ^2.1
- crwlr/utils: ^1.1
- guzzlehttp/guzzle: ^7.4
- psr/log: ^2.0|^3.0
- psr/simple-cache: ^1.0|^2.0|^3.0
- symfony/css-selector: ^6.0|^7.0
- symfony/dom-crawler: ^6.0|^7.0
Requires (Dev)
- friendsofphp/php-cs-fixer: ^3.6
- mockery/mockery: ^1.5
- pestphp/pest: ^2.3
- phpstan/extension-installer: ^1.1
- phpstan/phpstan: ^1.4
- phpstan/phpstan-mockery: ^1.0
- phpstan/phpstan-phpunit: ^1.0
- spatie/invade: ^2.0
- symfony/process: ^6.0|^7.0
Suggests
- ext-zlib: Needed to uncompress compressed responses
- dev-main
- v2.0.0-beta.2
- v2.0.0-beta
- v1.10.0
- v1.9.5
- v1.9.4
- v1.9.3
- v1.9.2
- v1.9.1
- v1.9.0
- v1.8.0
- v1.7.2
- v1.7.1
- v1.7.0
- v1.6.2
- v1.6.1
- v1.6.0
- v1.5.3
- v1.5.2
- v1.5.1
- v1.5.0
- v1.4.0
- v1.3.5
- v1.3.4
- v1.3.3
- v1.3.2
- v1.3.1
- v1.3.0
- v1.2.2
- v1.2.1
- v1.2.0
- v1.1.6
- v1.1.5
- v1.1.4
- v1.1.3
- v1.1.2
- v1.1.1
- v1.1.0
- v1.0.2
- v1.0.1
- v1.0.0
- v0.7.0
- v0.6.0
- v0.5.0
- v0.4.1
- v0.4.0
- v0.3.0
- v0.2.0
- v0.1.0
- dev-v2-0
- dev-improve-pre-run-validation-warnings
This package is auto-updated.
Last update: 2024-09-14 11:09:51 UTC
README
快速开发(网络)爬虫和抓取库的库
此库提供了一种框架和许多现成的、所谓 步骤,您可以用作构建块,以构建自己的爬虫和抓取工具。
为了给您一个概览,以下是一些它可以帮助您完成的事项
- 爬虫 礼貌 😇(尊重robots.txt,限制...)
- 使用
- (PSR-18) HTTP客户端 加载URL(默认当然为Guzzle)
- 或一个 无头浏览器(chrome)在JavaScript执行后获取源代码
- 从HTML文档获取 绝对链接 🔗
- 从robots.txt获取 网站地图 并从这些网站地图获取所有URL
- 爬取(加载)网站的所有页面 🕷
- 使用 cookie(或不用) 🍪
- 使用任何 HTTP方法(GET,POST...)并发送任何头或正文
- 轻松遍历 分页 列表页面 🔁
- 从
- 从HTML文档中提取 schema.org 结构化数据,以 JSON-LD 格式
- 通过使用PHP 生成器 💪 来降低内存使用量
- 缓存 HTTP响应 在开发期间,因此您不必在每次代码更改后重新加载页面
- 获取有关爬虫正在做什么的 日志(接受任何PSR-3 LoggerInterface)
- 还有更多...
文档
您可以在 crwlr.software 上找到文档。
贡献
如果您考虑为此包做出贡献,请阅读 贡献指南(CONTRIBUTING.md)。