bpteam / quick-parse-wizard
该项目旨在简化创建网络爬虫的过程,使其对经验丰富的开发者和技术水平较低的用户都易于使用且有效。
1.2.1
2023-12-31 16:05 UTC
Requires
- php: ^8.1
- ext-mbstring: *
- caseyamcl/guzzle_retry_middleware: ^2.9
- guzzlehttp/guzzle: ^7.8
Requires (Dev)
- phpunit/phpunit: ^9
This package is auto-updated.
Last update: 2024-08-30 01:50:00 UTC
README
该项目旨在简化创建网络爬虫的过程,使其对经验丰富的开发者和技术水平较低的用户都易于使用且有效。
安装
composer require bpteam/quick-parse-wizard
功能
- 加载器
- 使用真实Chrome浏览器和JavaScript渲染执行请求
- 通过响应代码或正则表达式验证响应内容来发送带有重试的请求
- RegExpGenerator
- 生成HTML标签的正则表达式
- 生成CSS选择器的正则表达式
- TextExtractor
- 不进行DOM解析,从HTML标签中提取文本
- 将文本分割成句子
- ApiKeyRotator
- 根据请求数量旋转API密钥,每个密钥有时间和使用价格限制
示例
加载器
带有重试的加载器
use bpteam\QuickParseWizard\Loader\GuzzleWithRetryLoader; $loader = GuzzleWithRetryLoader::create( defaultGuzzleOptions: [], // For more information see https://docs.guzzlephp.org/en/stable/request-options.html defaultRetryOptions: [ // For more information see https://github.com/caseyamcl/guzzle_retry_middleware?tab=readme-ov-file#options 'retry_on_status' => ['503', '502', '429'], 'retry_on_timeout' => true, ], ); $response = $loader->load('https://example.com'); echo $response->body;
带有JavaScript渲染的加载器
use bpteam\QuickParserWizard\Loader\BrowserScrapeCrusaderLoader; $loader = new BrowserScrapeCrusaderLoader( xRapidAPIKey: 'your-api-key-from-rapidapi.com', // For more information see https://rapidapi.com/bpt22/api/scrapecrusader ); $response = $loader->load('https://example.com'); echo $response->body;
ApiKeyRotator
ApiKeyArrayProvider用于单进程使用
use bpteam\QuickParserWizard\ApiKeyRotator\ApiKeyArrayProvider; $apiKey = new ApiKeyArrayProvider(); $apiKey->add('my_key_name', new Key('MY_FIRST_API_KEY'), 1000, new \DateInterval('PT1M')); $apiKey->add('my_key_name_2', new Key('MY_SECOND_API_KEY'), 1000, new \DateInterval('PT1M')); $key = $apiKey->find(); echo $key->getCredentials(); // MY_FIRST_API_KEY
测试
vendor/bin/phpunit