clayliddell / rolling-curl
Rolling-Curl:PHP的一个非阻塞、非拒绝服务(DOS)的多curl库
3.1.3
2017-05-20 22:59 UTC
Requires
- php: >=5.3.0
- ext-curl: *
- lib-curl: *
This package is not auto-updated.
Last update: 2024-09-15 03:49:50 UTC
README
一个cURL库,在保持一致数量的并发连接的同时获取大量资源
作者
- Clayton Liddell (clayliddell.com)
- Jeff Minard (jrm.cc)
- Josh Fraser (joshfraser.com)
- Alexander Makarov (rmcreative.ru)
概述
RollingCurl是对curl_multi()的更高效实现。
curl_multi是PHP中并行处理多个HTTP请求的好方法,但存在一些问题
- curl_multi的文档非常晦涩难懂,因此很容易被错误或低效地实现
- 大多数curl_multi示例都会将所有请求排队并一次性执行
第二个点是最重要的,原因有两个
- 如果你必须等待每个请求都完成,你的程序将被最长运行的那个请求所“阻塞”。
- 更重要的是,当你同时运行大量cURL请求时,你实际上是在进行一种DOS攻击。如果你需要获取数百甚至数千个URL,你很可能被自动DOS系统所阻止。最糟糕的是,你并不是一个尊重的网络公民。
RollingCurl通过保持最大数量的并发请求,并在现有请求完成时将新请求“滚动”到队列中来解决这两个问题。当请求完成时,在还有其他请求正在运行的同时,RollingCurl可以运行一个匿名函数来处理获取到的结果。(如果你更喜欢,你也可以选择跳过该函数,一次性处理所有请求。)
安装(通过composer)
获取composer并在你的composer.json文件的要求部分添加以下内容
{
"require": {
"chuyskywalker/rolling-curl": "*"
}
}
然后
composer install
用法
基本示例
$rollingCurl = new \RollingCurl\RollingCurl(); $rollingCurl ->get('http://yahoo.com') ->get('http://google.com') ->get('http://hotmail.com') ->get('http://msn.com') ->get('http://reddit.com') ->setCallback(function(\RollingCurl\Request $request, \RollingCurl\RollingCurl $rollingCurl) { // parsing html with regex is evil (http://bit.ly/3x9sQX), but this is just a demo if (preg_match("#<title>(.*)</title>#i", $request->getResponseText(), $out)) { $title = $out[1]; } else { $title = '[No Title Tag Found]'; } echo "Fetch complete for (" . $request->getUrl() . ") $title " . PHP_EOL; }) ->setSimultaneousLimit(3) ->execute();
获取大量页面
让我们抓取谷歌上关于“curl”的前500个链接和标题
$rollingCurl = new \RollingCurl\RollingCurl(); for ($i = 0; $i <= 500; $i+=10) { // https://www.google.com/search?q=curl&start=10 $rollingCurl->get('https://www.google.com/search?q=curl&start=' . $i); } $results = array(); $start = microtime(true); echo "Fetching..." . PHP_EOL; $rollingCurl ->setCallback(function(\RollingCurl\Request $request, \RollingCurl\RollingCurl $rollingCurl) use (&$results) { if (preg_match_all('#<h3 class="r"><a href="([^"]+)">(.*)</a></h3>#iU', $request->getResponseText(), $out)) { foreach ($out[1] as $idx => $url) { parse_str(parse_url($url, PHP_URL_QUERY), $params); $results[$params['q']] = strip_tags($out[2][$idx]); } } // Clear list of completed requests and prune pending request queue to avoid memory growth $rollingCurl->clearCompleted(); $rollingCurl->prunePendingRequestQueue(); echo "Fetch complete for (" . $request->getUrl() . ")" . PHP_EOL; }) ->setSimultaneousLimit(10) ->execute(); ; echo "...done in " . (microtime(true) - $start) . PHP_EOL; echo "All results: " . PHP_EOL; print_r($results);
设置自定义curl选项
对于每个请求
$rollingCurl = new \RollingCurl\RollingCurl(); $rollingCurl // setOptions will overwrite all the default options. // addOptions is probably a better choice ->setOptions(array( CURLOPT_HEADER => true, CURLOPT_NOBODY => true )) ->get('http://yahoo.com') ->get('http://google.com') ->get('http://hotmail.com') ->get('http://msn.com') ->get('http://reddit.com') ->setCallback(function(\RollingCurl\Request $request, \RollingCurl\RollingCurl $rollingCurl) { echo "Fetch complete for (" . $request->getUrl() . ")" . PHP_EOL; }) ->setSimultaneousLimit(3) ->execute();
对于单个请求
$rollingCurl = new \RollingCurl\RollingCurl(); $sites = array( 'http://yahoo.com' => array( CURLOPT_TIMEOUT => 15 ), 'http://google.com' => array( CURLOPT_TIMEOUT => 5 ), 'http://hotmail.com' => array( CURLOPT_TIMEOUT => 10 ), 'http://msn.com' => array( CURLOPT_TIMEOUT => 10 ), 'http://reddit.com' => array( CURLOPT_TIMEOUT => 25 ), ); foreach ($sites as $url => $options) { $request = new \RollingCurl\Request($url); $rollingCurl->add( $request->addOptions($options) ); } $rollingCurl->execute();
更多示例可以在examples/目录中找到。
待办事项
- PHPUnit测试
- 确保PSR规范兼容性
- 修复待办事项
- 在setter上执行更好的验证
欢迎fork和提交pull request以帮助解决上述问题。 :D