baraja-core / webcrawler
此软件包最新版本(v1.3.3)没有提供许可证信息。
简单的软件包,用于加载URL列表并生成站点地图。
v1.3.3
2023-08-01 12:54 UTC
Requires
- php: ^8.0
- ext-curl: *
- nette/http: ^3.0
- nette/utils: ^4.0
Requires (Dev)
- phpstan/extension-installer: ^1.1
- phpstan/phpstan: ^1.0
- phpstan/phpstan-deprecation-rules: ^1.0
- phpstan/phpstan-nette: ^1.0
- phpstan/phpstan-strict-rules: ^1.0
- roave/security-advisories: dev-master
- spaze/phpstan-disallowed-calls: ^2.0
This package is auto-updated.
Last update: 2024-09-09 20:53:00 UTC
README
BRJ组织
网络爬虫
一个简单的库,用于通过跟随链接以最小依赖关系爬取网站。
📦 安装
最好使用Composer进行安装,您也可以在Packagist和GitHub上找到此软件包。
要安装,请简单地使用以下命令
$ composer require baraja-core/webcrawler
您可以通过创建内部类的实例或注册DIC扩展将服务直接链接到Nette框架来手动使用此软件包。
如何使用
爬虫可以在没有依赖的情况下运行。
在默认设置下,创建实例并调用crawl()
方法
$crawler = new \Baraja\WebCrawler\Crawler; $result = $crawler->crawl('https://example.com');
在$result
变量中将是类型为CrawledResult
的实体。
对多个URL的高级检查
在实际情况下,您可能需要下载单个域中的多个URL并检查某些特定URL是否工作。
简单示例
$crawler = new \Baraja\WebCrawler\Crawler; $result = $crawler->crawlList( 'https://example.com', // Starting (main) URL [ // Additional URLs 'https://example.com/error-404', '/robots.txt', // Relative links are also allowed '/web.config', ] );
注意:如果存在,将自动下载文件robots.txt和站点地图。
设置
在服务Crawler
的构造函数中,您可以定义您项目的特定配置。
例如
$crawler = new \Baraja\WebCrawler\Crawler( new \Baraja\WebCrawler\Config([ // key => value ]) );
不需要任何值。请使用键值数组。
配置选项
📄 许可证
baraja-core/webcrawler
采用MIT许可证。有关更多详细信息,请参阅LICENSE文件。