PHP采用curl多线程抓取网页功能实现

以下是示例代码:

class HttpMulti {

//curl选项
private static $options = array(
CURLOPT_SSL_VERIFYPEER => 0, //不开启HTTPS请求
CURLOPT_RETURNTRANSFER => 1, //请求信息以文件流方式返回
CURLOPT_CONNECTTIMEOUT => 10, //连接超时时间 默认为10s
CURLOPT_TIMEOUT => 20, //设置curl执行最大时间
CURLOPT_ENCODING => “gzip”, //HTTP请求头中”Accept-Encoding”的值,为空发送所有支持的编码类型
CURLOPT_HEADER => 0, //设置为true,请求返回的文件流中就会包含response header
CURLOPT_USERAGENT => ‘Mozilla/5.0’,
CURLOPT_POST => FALSE, //默认选择GET的方式发送
);

public static function multiRun($urlData=array()){
if(empty($urlData)) return;
$data = $curls = array();
$mh = curl_multi_init();
foreach($urlData as $k=>$val){
$ch = curl_init($val);
curl_setopt_array($ch, self::$options);
curl_multi_add_handle($mh, $ch);
$curls[$k] = $ch;
}
// 执行批处理句柄
self::execMultiHandle($mh);
if($curls){
foreach($curls as $_k=>$v){
//获得返回信息
$data[$_k] = curl_multi_getcontent($v);
curl_close($v);
curl_multi_remove_handle($mh, $v);
curl_multi_close($mh);
}
}

return $data;

}

static private function execMultiHandle($mh){
if(empty($mh)) return false;
do{
$mrc = curl_multi_exec($mh, $active);
}while($mrc == CURLM_CALL_MULTI_PERFORM);
while($active && $mrc == CURLM_OK){
if(curl_multi_select($mh) != -1){
do{
$mrc = curl_multi_exec($mh, $active);
}while($mrc == CURLM_CALL_MULTI_PERFORM);
}
}
}

}

//测试代码
$urlData = [
‘https://www.baidu.com/’,
‘https://www.taobao.com/’,
‘http://www.360.com/’
];
$res = HttpMulti::multiRun($urlData);

 

欢迎使用66资源网
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
7. 本站有不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别!

66源码网 » PHP采用curl多线程抓取网页功能实现

提供最优质的资源集合

立即查看 了解详情