ronappleton / webcrawler

Webcrawler 用于抓取已索引站点，即选项和索引

维护者

详细信息

github.com/ronappleton/webcrawler

公开问题: 0

dev-master 2018-10-06 11:31 UTC

Requires

guzzlehttp/guzzle: ^6.3
nesbot/carbon: ^1.32

Requires (Dev)

None

Suggests

None

Provides

None

Conflicts

None

Replaces

None

MIT 48b1c2a45b6c57b894e3557537c7f01055ac2df1

Ron Appleton <ronald.appleton.woop@gmail.com>

dev-master

This package is auto-updated.

Last update: 2024-09-10 08:33:42 UTC

README

简单的网站链接检索爬虫

这个爬虫包是一个简单的包，设计用于从网站提供的html中提取它能够找到的文件。

默认情况下，它被限制在源域，可以通过爬取方法的 restrict_domain 选项进行更改。

它是为了处理已知的自链接站点而构建的，尽管我将在需要时添加控制以防止外部爬取。

它易于使用，并解决了其他人试图构建简单爬虫时遇到的一些问题。

支持

扫描和检索网页。
读取并提取网页中的所有链接。
推断链接是否指向另一个目录或文件。
存储文件和目录位置（网络位置）。
处理相对和非相对URL。
爬取次数
提供最小计数统计信息
将收集的数据导出为数组
将收集的数据导出为Json

警告

自行承担风险使用，请不要爬取那些未预期被爬取的网站，风险自负

简单测试脚本

包含了一个简单的测试脚本。