crwlr / crawler

网络爬虫和抓取库。

维护者

详细信息

github.com/crwlrsoft/crawler

安装量: 5 048

依赖关系: 2

公开问题: 2

v2.0.0-beta.2 2024-08-26 10:28 UTC

Requires

php: ^8.1
ext-dom: *
adbario/php-dot-notation: ^3.1
chrome-php/chrome: ^1.7
crwlr/html-2-text: ^0.1.0
crwlr/robots-txt: ^1.1
crwlr/schema-org: ^0.2|^0.3
crwlr/url: ^2.1
crwlr/utils: ^1.1
guzzlehttp/guzzle: ^7.4
psr/log: ^2.0|^3.0
psr/simple-cache: ^1.0|^2.0|^3.0
symfony/css-selector: ^6.0|^7.0
symfony/dom-crawler: ^6.0|^7.0

Requires (Dev)

Suggests

ext-zlib: Needed to uncompress compressed responses

Provides

None

Conflicts

None

Replaces

None

MIT 576d1dbe8efba17ff054e43d3c686e2bc5666df8

Christian Olear

web scraper crawler bot crawling scraping scrape crawl crwlr

This package is auto-updated.

Last update: 2024-09-14 11:09:51 UTC

README

快速开发（网络）爬虫和抓取库的库

此库提供了一种框架和许多现成的、所谓步骤，您可以用作构建块，以构建自己的爬虫和抓取工具。

为了给您一个概览，以下是一些它可以帮助您完成的事项

爬虫礼貌 😇（尊重robots.txt，限制...）
使用
- (PSR-18) HTTP客户端 加载URL（默认当然为Guzzle）
- 或一个 无头浏览器（chrome）在JavaScript执行后获取源代码
从HTML文档获取 绝对链接 🔗
从robots.txt获取 网站地图 并从这些网站地图获取所有URL
爬取（加载）网站的所有页面 🕷
使用 cookie（或不用） 🍪
使用任何 HTTP方法（GET，POST...）并发送任何头或正文
轻松遍历分页列表页面 🔁
从
- HTML 和 XML（使用CSS选择器或XPath查询）
- JSON（使用点表示法）
- CSV（映射列）
从HTML文档中提取 schema.org 结构化数据，以 JSON-LD 格式
通过使用PHP 生成器 💪 来降低内存使用量
缓存 HTTP响应在开发期间，因此您不必在每次代码更改后重新加载页面
获取有关爬虫正在做什么的日志（接受任何PSR-3 LoggerInterface）
还有更多...

文档

您可以在 crwlr.software 上找到文档。

贡献

如果您考虑为此包做出贡献，请阅读贡献指南（CONTRIBUTING.md）。