通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便),curl_setopt 是php的一个扩展库
使用条件:需要在php.ini 中配置开启。(PHP 4 >= 4.0.2)
//取消下面的注释
extension=php_curl.dll
在Linux下面,需要重新编译PHP了,编译时,你需要打开编译参数——在configure命令上加上“–with-curl” 参数。
1、 一个抓取网页的简单案例:
//创建一个新cURL资源
$ch=curl_init();
//设置URL和相应的选项
curl_setopt($ch,CURLOPT_URL,"/");
curl_setopt($ch,CURLOPT_HEADER,false);
//抓取URL并把它传递给浏览器
curl_exec($ch);
//关闭cURL资源,并且释放系统资源
curl_close($ch);
2、POST数据案例:
//创建一个新cURL资源
$ch=curl_init();
$data='phone='.urlencode($phone);
//设置URL和相应的选项
curl_setopt($ch,CURLOPT_URL,"/");
curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_POSTFIELDS,$data);
//抓取URL并把它传递给浏览器
curl_exec($ch);
//关闭cURL资源,并且释放系统资源
curl_close($ch);
3、关于SSL和Cookie
关于SSL也就是HTTPS协议,你只需要把CURLOPT_URL连接中的http://变成https://就可以了。当然,还有一个参数叫CURLOPT_SSL_VERIFYHOST可以设置为验证站点。
关于Cookie,你需要了解下面三个参数:
CURLOPT_COOKIE,在当面的会话中设置一个cookie
CURLOPT_COOKIEJAR,当会话结束的时候保存一个Cookie
CURLOPT_COOKIEFILE,Cookie的文件。
PS:新浪微博登陆API部分截取(部分我增加了点注释,全当参数翻译下。哈哈) 有兴趣的自己研究,自己挪为己用。嘿嘿
/**
*MakeanHTTPrequest
*
*@returnstringAPIresults
*@ignore
*/
functionhttp($url,$method,$postfields=NULL,$headers=array()){
$this->http_info=array();
$ci=curl_init();
/*Curlsettings*/
curl_setopt($ci,CURLOPT_HTTP_VERSION,CURL_HTTP_VERSION_1_0);//让cURL自己判断使用哪个版本
curl_setopt($ci,CURLOPT_USERAGENT,$this->useragent);//在HTTP请求中包含一个"User-Agent:"头的字符串。
curl_setopt($ci,CURLOPT_CONNECTTIMEOUT,$this->connecttimeout);//在发起连接前等待的时间,如果设置为0,则无限等待
curl_setopt($ci,CURLOPT_TIMEOUT,$this->timeout);//设置cURL允许执行的最长秒数
curl_setopt($ci,CURLOPT_RETURNTRANSFER,TRUE);//返回原生的(Raw)输出
curl_setopt($ci,CURLOPT_ENCODING,"");//HTTP请求头中"Accept-Encoding:"的值。支持的编码有"identity","deflate"和"gzip"。如果为空字符串"",请求头会发送所有支持的编码类型。
curl_setopt($ci,CURLOPT_SSL_VERIFYPEER,$this->ssl_verifypeer);//禁用后cURL将终止从服务端进行验证
curl_setopt($ci,CURLOPT_HEADERFUNCTION,array($this,'getHeader'));//第一个是cURL的资源句柄,第二个是输出的header数据
curl_setopt($ci,CURLOPT_HEADER,FALSE);//启用时会将头文件的信息作为数据流输出
switch($method){
case'POST':
curl_setopt($ci,CURLOPT_POST,TRUE);
if(!empty($postfields)){
curl_setopt($ci,CURLOPT_POSTFIELDS,$postfields);
$this->postdata=$postfields;
}
break;
case'DELETE':
curl_setopt($ci,CURLOPT_CUSTOMREQUEST,'DELETE');
if(!empty($postfields)){
$url="{$url}?{$postfields}";
}
}
if(isset($this->access_token)&&$this->access_token)
$headers[]="Authorization:OAuth2".$this->access_token;
$headers[]="API-RemoteIP:".$_SERVER['REMOTE_ADDR'];
curl_setopt($ci,CURLOPT_URL,$url);
curl_setopt($ci,CURLOPT_HTTPHEADER,$headers);
curl_setopt($ci,CURLINFO_HEADER_OUT,TRUE);
$response=curl_exec($ci);
$this->http_code=curl_getinfo($ci,CURLINFO_HTTP_CODE);
$this->http_info=array_merge($this->http_info,curl_getinfo($ci));
$this->url=$url;
if($this->debug){
echo"=====postdata======\r\n";
var_dump($postfields);
echo'=====info====='."\r\n";
print_r(curl_getinfo($ci));
echo'=====$response====='."\r\n";
print_r($response);
}
curl_close($ci);
return$response;
}
$user=$_POST["stuno"];
$password=$_POST["stupwd"];
$yzm=$_POST["stuyzm"];
//echo$user;
//echo$password;
//echo$yzm;
$cookie_file=tempnam('./temp','cookie');
$login_url='http://xk.:82/index.aspx';
$post_fields=array("cktime"=>"3153600","txtUserID"=>$user,"txtUserPwd"=>$password,"txtValidateCode"=>$yzm);
$ch=curl_init($login_url);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPTFOLLOWLOCATION,1);
curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file);
curl_setopt($ch,CURLOPT_POSTFIELDS,$post_fields);
curl_exec($ch);
curl_close($ch);
$url='http://xk.:82/index.aspx';
$ch=curl_init($url);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,0);
curl_setopt($ch,CURLOPTFOLLOWLOCATION,1);
curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file);
$contents=curl_exec($ch);
curl_close($ch);
?>
转 PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据) 通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便),curl_setopt 是php的一个 ...
php curl_multi系列函数实现多线程抓取网页
最近几天在做一个多搜索引擎关键字排名查询工具,用于及时方便的了解关键词在各大搜索引擎的排名. 在抓取360搜索的时候,发现360搜索每页只支持显示10个搜索结果,如果想获取100个搜索结果数据,就得搜 ...
PHP中CURL方法curl_setopt()函数的一些参数
bool curl_setopt (int ch, string option, mixed value)curl_setopt()函数将为一个CURL会话设置选项.option参数是你想要的设置,v ...
PHP中CURL方法curl_setopt()函数的参数
PHP CURL curl_setopt 参数 boolcurl_setopt(int ch, string option, mixed value)curl_setopt()函数将为一个CURL ...
PHP中CURL方法curl_setopt()函数的一些参数 (转)
bool curl_setopt (int ch, string option, mixed value) curl_setopt()函数将为一个CURL会话设置选项.option参数是你想要的设置, ...
一个我经常用到的采集网页数据抓取网页获取数据的PHP函数类
class get_c_str { var $str; var $start_str; var $end_str; var $start_pos; var $end_pos; var $c_str_l ...
HTML5 Audio标签方法和函数API介绍
问说网>文章教程>网页制作>HTML5 Audio标签方法和函数API介绍 Audio APIHTML5HTML5 Audio预加载 HTML5 Audio标签方法和函数 ...
PHP使用CURL抓取网页
CURL是一个非常强大的开源库,支持很多协议,包括HTTP.FTP.TELNET等,我们使用它来发送HTTP请求.它给我 们带来的好处是可以通过灵活的选项设置不同的HTTP协议参数,并且支持HTTPS ...
PHP的cURL库:抓取网页,POST数据及其他,HTTP认证 抓取数据
From :/art/04/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...
随机推荐
ExtJS4.2学习(四)Grid表格中文排序问题(转)
鸣谢:/jishuliangongfang/qianduanjishu/-11-07/173.html --------------- ...
(十)学习CSS之padding属性
浏览器支持 所有浏览器都支持 padding 属性. 注释:任何的版本的 Internet Explorer (包括 IE8)都不支持属性值 "inherit". 定义和用法 pa ...
AptanaStudio3 安装在win7 64bit时遇到的问题
最近在研究前端语言,想起可以使用AptanaStudio这个前端利器,没想到安装时却遇到波折.先从网上下载了Aptana版本 3.6.0 64bit问题1 安装进度缓慢,第一次安装时,显示downlo ...
C#程序中获取电脑硬件配置信息的一种方法
本文介绍获取cpu信息和内存信息的方法,根据本文所举例的代码可以举一反三获取更多信息. 获取cpu名称的方法: public string GetCpuInfo() { ManagementObjec ...
为什么我离开Mac for Windows:苹果已经放弃了[译]
为什么我离开Mac for Windows:苹果已经放弃了[译] 如果你问任何知道我的人,我可能是他们知道的最大的苹果粉丝.要求提供什么电脑可以获得的建议,我几乎肯定会告诉你MacBook Pro,还 ...
对半导体制造(FAB)工种的全方位解析
本文转载自微信公众号 - 感集网, 链接 https://mp./s/MRoWRbKZFBrJcQAZPqDa7w
Codeforces 1077D Cutting Out(二分答案)
题目链接:Cutting Out 题意:给定一个n长度的数字序列s,要求得到一个k长度的数字序列t,每次从s序列中删掉完整的序列t,求出能删次数最多的那个数字序列t. 题解:数字序列s先转换成不重复的 ...
TTL集成门电路
一.TTL集成门电路的结构1.总体结构 所谓TTL就是transistor transistor logic,就是说是由晶体管和晶体管之间构成电路. 2.TTL集成门电路典型输入级形式 1)二 ...
[转]Bootstrap table 分页 In asp.net MVC
本文转自:/lenovo_tiger_love/p/7474403.html 中文翻译文档: /rickiyeat ...
MySQL -- Fast Index Creation
1.fast index creation简介 MySQL5.5之后,对innodb表创建或删除辅助索引的效率提升了很多,即增加了新的功能fast index creation.因为MySQL5.5之 ...