baraja-core/webcrawler

此软件包最新版本(v1.3.3)没有提供许可证信息。

简单的软件包,用于加载URL列表并生成站点地图。

v1.3.3 2023-08-01 12:54 UTC

README


BRJ组织

网络爬虫

Integrity check

一个简单的库,用于通过跟随链接以最小依赖关系爬取网站。

捷克语文档

📦 安装

最好使用Composer进行安装,您也可以在PackagistGitHub上找到此软件包。

要安装,请简单地使用以下命令

$ composer require baraja-core/webcrawler

您可以通过创建内部类的实例或注册DIC扩展将服务直接链接到Nette框架来手动使用此软件包。

如何使用

爬虫可以在没有依赖的情况下运行。

在默认设置下,创建实例并调用crawl()方法

$crawler = new \Baraja\WebCrawler\Crawler;

$result = $crawler->crawl('https://example.com');

$result变量中将是类型为CrawledResult的实体。

对多个URL的高级检查

在实际情况下,您可能需要下载单个域中的多个URL并检查某些特定URL是否工作。

简单示例

$crawler = new \Baraja\WebCrawler\Crawler;

$result = $crawler->crawlList(
    'https://example.com', // Starting (main) URL
    [ // Additional URLs
        'https://example.com/error-404',
        '/robots.txt', // Relative links are also allowed
        '/web.config',
    ]
);

注意:如果存在,将自动下载文件robots.txt和站点地图。

设置

在服务Crawler的构造函数中,您可以定义您项目的特定配置。

例如

$crawler = new \Baraja\WebCrawler\Crawler(
    new \Baraja\WebCrawler\Config([
        // key => value
    ])
);

不需要任何值。请使用键值数组。

配置选项

📄 许可证

baraja-core/webcrawler采用MIT许可证。有关更多详细信息,请参阅LICENSE文件。