bpteam/quick-parse-wizard

该项目旨在简化创建网络爬虫的过程,使其对经验丰富的开发者和技术水平较低的用户都易于使用且有效。

1.2.1 2023-12-31 16:05 UTC

This package is auto-updated.

Last update: 2024-08-30 01:50:00 UTC


README

该项目旨在简化创建网络爬虫的过程,使其对经验丰富的开发者和技术水平较低的用户都易于使用且有效。

安装

composer require bpteam/quick-parse-wizard

功能

  • 加载器
    • 使用真实Chrome浏览器和JavaScript渲染执行请求
    • 通过响应代码或正则表达式验证响应内容来发送带有重试的请求
  • RegExpGenerator
    • 生成HTML标签的正则表达式
    • 生成CSS选择器的正则表达式
  • TextExtractor
    • 不进行DOM解析,从HTML标签中提取文本
    • 将文本分割成句子
  • ApiKeyRotator
    • 根据请求数量旋转API密钥,每个密钥有时间和使用价格限制

示例

加载器

带有重试的加载器

use bpteam\QuickParseWizard\Loader\GuzzleWithRetryLoader;

$loader = GuzzleWithRetryLoader::create(
    defaultGuzzleOptions: [], // For more information see https://docs.guzzlephp.org/en/stable/request-options.html
    defaultRetryOptions: [ // For more information see https://github.com/caseyamcl/guzzle_retry_middleware?tab=readme-ov-file#options
        'retry_on_status' => ['503', '502', '429'],
        'retry_on_timeout' => true,
    ],   
);

$response = $loader->load('https://example.com');

echo $response->body;

带有JavaScript渲染的加载器

use bpteam\QuickParserWizard\Loader\BrowserScrapeCrusaderLoader;

$loader = new BrowserScrapeCrusaderLoader(
    xRapidAPIKey: 'your-api-key-from-rapidapi.com', // For more information see https://rapidapi.com/bpt22/api/scrapecrusader
);

$response = $loader->load('https://example.com');

echo $response->body;

ApiKeyRotator

ApiKeyArrayProvider用于单进程使用

use bpteam\QuickParserWizard\ApiKeyRotator\ApiKeyArrayProvider;

$apiKey = new ApiKeyArrayProvider();
$apiKey->add('my_key_name', new Key('MY_FIRST_API_KEY'), 1000, new \DateInterval('PT1M'));
$apiKey->add('my_key_name_2', new Key('MY_SECOND_API_KEY'), 1000, new \DateInterval('PT1M'));

$key = $apiKey->find();

echo $key->getCredentials(); // MY_FIRST_API_KEY

测试

vendor/bin/phpunit