ronappleton / webcrawler
Webcrawler 用于抓取已索引站点,即选项和索引
dev-master
2018-10-06 11:31 UTC
Requires
- guzzlehttp/guzzle: ^6.3
- nesbot/carbon: ^1.32
This package is auto-updated.
Last update: 2024-09-10 08:33:42 UTC
README
简单的网站链接检索爬虫
这个爬虫包是一个简单的包,设计用于从网站提供的html中提取它能够找到的文件。
默认情况下,它被限制在源域,可以通过爬取方法的 restrict_domain 选项进行更改。
它是为了处理已知的自链接站点而构建的,尽管我将在需要时添加控制以防止外部爬取。
它易于使用,并解决了其他人试图构建简单爬虫时遇到的一些问题。
支持
- 扫描和检索网页。
- 读取并提取网页中的所有链接。
- 推断链接是否指向另一个目录或文件。
- 存储文件和目录位置(网络位置)。
- 处理相对和非相对URL。
- 爬取次数
- 提供最小计数统计信息
- 将收集的数据导出为数组
- 将收集的数据导出为Json
警告
自行承担风险使用,请不要爬取那些未预期被爬取的网站,风险自负
简单测试脚本
包含了一个简单的测试脚本。