README

BRJ组织

网络爬虫

一个简单的库，用于通过跟随链接以最小依赖关系爬取网站。

📦 安装

最好使用Composer进行安装，您也可以在Packagist和GitHub上找到此软件包。

要安装，请简单地使用以下命令

$ composer require baraja-core/webcrawler

您可以通过创建内部类的实例或注册DIC扩展将服务直接链接到Nette框架来手动使用此软件包。

如何使用

爬虫可以在没有依赖的情况下运行。

在默认设置下，创建实例并调用crawl()方法

$crawler = new \Baraja\WebCrawler\Crawler;

$result = $crawler->crawl('https://example.com');

在$result变量中将是类型为CrawledResult的实体。

对多个URL的高级检查

在实际情况下，您可能需要下载单个域中的多个URL并检查某些特定URL是否工作。

简单示例

$crawler = new \Baraja\WebCrawler\Crawler;

$result = $crawler->crawlList(
    'https://example.com', // Starting (main) URL
    [ // Additional URLs
        'https://example.com/error-404',
        '/robots.txt', // Relative links are also allowed
        '/web.config',
    ]
);

注意：如果存在，将自动下载文件robots.txt和站点地图。

设置

在服务Crawler的构造函数中，您可以定义您项目的特定配置。

例如

$crawler = new \Baraja\WebCrawler\Crawler(
    new \Baraja\WebCrawler\Config([
        // key => value
    ])
);

不需要任何值。请使用键值数组。

配置选项

📄 许可证

baraja-core/webcrawler采用MIT许可证。有关更多详细信息，请参阅LICENSE文件。

baraja-core / webcrawler

维护者

详细信息