ronappleton/webcrawler

Webcrawler 用于抓取已索引站点,即选项和索引

dev-master 2018-10-06 11:31 UTC

This package is auto-updated.

Last update: 2024-09-10 08:33:42 UTC


README

简单的网站链接检索爬虫

这个爬虫包是一个简单的包,设计用于从网站提供的html中提取它能够找到的文件。

默认情况下,它被限制在源域,可以通过爬取方法的 restrict_domain 选项进行更改。

它是为了处理已知的自链接站点而构建的,尽管我将在需要时添加控制以防止外部爬取。

它易于使用,并解决了其他人试图构建简单爬虫时遇到的一些问题。

支持

  • 扫描和检索网页。
  • 读取并提取网页中的所有链接。
  • 推断链接是否指向另一个目录或文件。
  • 存储文件和目录位置(网络位置)。
  • 处理相对和非相对URL。
  • 爬取次数
  • 提供最小计数统计信息
  • 将收集的数据导出为数组
  • 将收集的数据导出为Json

警告

自行承担风险使用,请不要爬取那些未预期被爬取的网站,风险自负

简单测试脚本

包含了一个简单的测试脚本。