1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > PHP实现采集抓取淘宝网单个商品信息

PHP实现采集抓取淘宝网单个商品信息

时间:2020-06-16 11:31:39

相关推荐

PHP实现采集抓取淘宝网单个商品信息

php教程|php手册

PHP,采集,抓取,淘宝网单个商品信息

php教程-php手册

web视频云直播平台系统源码,vscode跳转到指定方法,ubuntu svn端口,tomcat和面相服务,go 大型爬虫,php 执行系统命令函数,seo网站内容分析,照片分享网站系统,触摸屏主页模板lzw

这篇文章主要介绍了PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下

手机商城源码,ubuntu点不动了,python爬虫自动汇总,php hoa,扬州seo软件lzw

若夏小说新版源码,ubuntu怎样查看驱动,爬虫python应用价值,php推,外贸seo 工资lzw

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。

思路:

file_get_contents(url) 该函数根据 url 如 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!

具体实现方法:(获取500图,名称,价格,属性及商品描述)

复制代码 代码如下:

$text=file_get_contents(“/item.htm?id=2380347279”); //将url地址上页面内容保存进$text

A.获取500图:

复制代码 代码如下:

preg_match(‘/]*id=”J_ImgBooth”[^r]*rc=\”([^”]*)\”[^>]*>/’, $text, $img);

//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

复制代码 代码如下:

preg_match(‘/

([^]*)/’, $text, $title);<p>//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;<p>$title=iconv(‘GBK’,’UTF-8′,$title);<p>//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)<p>C.获取价格:</p><p>复制代码 代码如下:</p><p>preg_match(‘/]*>([^<]*)/is’, $text, $price);<p>//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;<p>$price=floatval($price);//放入数据库估计还有转一下变量类型</p><p>D.获取属性:</p><p>这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如</p><p>复制代码 代码如下:</p><p>…</p><p>…</p><p>…</p><p>…<p>…<p>…<p>这样特定div中有未知n个标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/]*>([^]|(?R))*/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…</p><p>…标签后面不是</p><p>就是</p><p>,所以我们可以采用变通法达到获取属性标签内容的目的。<p>复制代码 代码如下:</p><p>preg_match(‘/]*>.*/is’, $text, $text0);<p>//这个正则会抓取<div开始到整个页面最后一个标签,当然我们属性标签就在这个的前面部分。</p><p>$text1=preg_replace(“/[^<]*]*>.*/is”,””,$text0);<p>//匹配到<p>至最后然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。<p>$attributes=preg_replace(“/[^<]*]*>.*/is”,””,$text1);<p>//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。</p><p>E.获取描述:</p><p>通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,,不知道从淘宝的哪个角落中加载进来的。</p><p>好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“</p><p>复制代码 代码如下:</p><p>描述加载中</p><p>这几个div是加载描述所必须的,那么下面就是写代码了:</p><p>复制代码 代码如下:</p><p>preg_match_all(‘/]*>[^<]*/is’, $text, $content);//页面js脚本<p>$content=$content[0];<p>$description=’</p><p>描述加载中 ‘;<p>foreach ($content as &$v){$description.=iconv(‘GBK’,’UTF-8′,$v);};<p>//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。</p><p></p></p> </div> <div class="keywords"> </div> <div class="tips">本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。</div> </div> <script>news_one();</script> <dl class="plbox" id="comments"> <dt>网友评论</dt> <dd> <textarea class="plcc">文明上网理性发言</textarea> <button class="sendpl">发表评论</button> <div class="pl_tips">网友评论仅供其表达个人看法,并不表明网站立场。</div> <div class="b10"></div> <ol class="pllist"> </ol> </dd> </dl> <script> $(".plcc").focus(function(){ if($('.plcc').val()=='文明上网理性发言') $('.plcc').val(''); }); $(".sendpl").click(function(){ var plcc=$('.plcc').val(),plcs=$('<p>'+plcc+'</p>').text(); if(plcs!='' && plcs!='文明上网理性发言'){ $('.pllist').prepend('<li><img src="https://1200zi.500zi.com/statics/images/member/avatar.jpg" /><span class="adtime">2024-08-14 08:12</span><span class="plname">匿名877064363</span><span class="ipadd">[网友]<i>0.0.0.0</i></span><div class="pldata">'+plcs+' <font color="gray">(审核中)</font></div><div class="support"><span class="s1">顶0</span><span class="s2">踩0</span></div><div class="clear"></div></li>'); $.post("https://1200zi.500zi.com/comment.php",{"commentid":"content_1-67824661-1","title":"PHP%E5%AE%9E%E7%8E%B0%E9%87%87%E9%9B%86%E6%8A%93%E5%8F%96%E6%B7%98%E5%AE%9D%E7%BD%91%E5%8D%95%E4%B8%AA%E5%95%86%E5%93%81%E4%BF%A1%E6%81%AF","content":plcs,"token":"f95b31e47b3f3c25e23b78f9f45a38c7"}); } }); </script> <script>show(3);</script> <div class="list mt20"> <div class="listTit"><span></span>相关阅读</div> <dl> <dt><a href="https://1200zi.500zi.com/content/15/280/j21DQprKdy.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/15/280/6148395209a70e01c745fae0d7f9b03b.jpg" alt="PHP实现采集淘宝商品信息" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/content/15/280/j21DQprKdy.html" target="_blank">PHP实现采集淘宝商品信息</a></p> <p class="des"></p> <p class="key"> <span>2018-09-15</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/content/14/756/ynEWGNW12P.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/14/756/b56bb83cb41b4c56317cbf8c0d71875b.jpg" alt="python京东商品采集_利用Python正则表达式抓取京东网商品信息" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/content/14/756/ynEWGNW12P.html" target="_blank">python京东商品采集_利用Python正则表达式抓取京东网商品信息</a></p> <p class="des"></p> <p class="key"> <span>2020-04-15</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/content/15/292/Jdq3NxzaBz.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/15/292/5e5fd5e78f6e837b2ef20f3378772eff.jpg" alt="闲鱼商品详情抓取系统开发/测试完毕 可自动采集闲鱼商品详情信息" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/content/15/292/Jdq3NxzaBz.html" target="_blank">闲鱼商品详情抓取系统开发/测试完毕 可自动采集闲鱼商品详情信息</a></p> <p class="des"></p> <p class="key"> <span>2021-03-09</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/content/15/501/Jdq3K1OWBz.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/15/501/f0d323c4da5646183de0aa44c3b3e598.jpg" alt="php抓取商品信息 PHP採集抓取淘寶網單個商品信息的方法思路" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/content/15/501/Jdq3K1OWBz.html" target="_blank">php抓取商品信息 PHP採集抓取淘寶網單個商品信息的方法思路</a></p> <p class="des"></p> <p class="key"> <span>2020-07-13</span> <span></span> </p> </dd> </dl> </div> </div> <div class="sideRight"> <script>news_two();</script> <div class="rightNews mt20"> <div class="rightTit"><span></span>最近发布</div> <div class="rightNewsList"> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/4k2eLKrdgV.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/f192be68183b543ebca9ea9ad94d04bf.jpg" alt="爸爸看手机的作文 1200字" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/4k2eLKrdgV.html" target="_blank">爸爸看手机的作文 1200字</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/b4B7794Ble.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/a9fd7195deeca5f4470723f1d79e802e.jpg" alt="关于军训的作文:军训五味瓶1200字作文" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/b4B7794Ble.html" target="_blank">关于军训的作文:军训五味瓶1200字作文</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/AV2KeqrnMw.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/eccc1c8c64f49b51c8d472656525b00e.jpg" alt="减负中的朝三暮四1200字英语作文" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/AV2KeqrnMw.html" target="_blank">减负中的朝三暮四1200字英语作文</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/XO2XaqmBjP.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/fe84edd579fc620f7e432431a47fa687.jpg" alt="狙击电话亭观后感1200字作文素材大全" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/XO2XaqmBjP.html" target="_blank">狙击电话亭观后感1200字作文素材大全</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/6DdpMKp25g.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/ce4d296b60c690bde298c913397bf5bf.jpg" alt="练习说1200字作文素材大全" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/6DdpMKp25g.html" target="_blank">练习说1200字作文素材大全</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/yaBwAMzdY7.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/1ad1f40a99670b146f352284d9bb6105.jpg" alt="最新读懂抗疫大考的中国答卷论文1200字(精选9篇)" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/yaBwAMzdY7.html" target="_blank">最新读懂抗疫大考的中国答卷论文1200字(精选9篇)</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/oknMRqadAV.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/978e140ec2707cece1350c48fa2766f6.jpg" alt="翡翠湖马戏表演的震撼与思考" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/oknMRqadAV.html" target="_blank">翡翠湖马戏表演的震撼与思考</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/7WBARwWnZ5.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/a9dd9a9c7c8c492f4f1d35de68d1f401.jpg" alt="金蝉脱壳高一话题作文1200字" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/7WBARwWnZ5.html" target="_blank">金蝉脱壳高一话题作文1200字</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/1m2979DnVk.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/c2dbef88054386d4be7826d7f3af4045.jpg" alt="汤姆索亚历险记:1200字作文素材精华" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/1m2979DnVk.html" target="_blank">汤姆索亚历险记:1200字作文素材精华</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://1200zi.500zi.com/html/2024/0813/y4267qlBz1.html" target="_blank"><img src="https://1200zi.500zi.com/uploadfile/img/2024/08/13/faed89bd37ff1053947ae69b27352cd2.jpg" alt="爱与不爱:情感的深刻探索" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://1200zi.500zi.com/html/2024/0813/y4267qlBz1.html" target="_blank">爱与不爱:情感的深刻探索</a></p> <p class="key"> <span>2024-08-13</span> <span></span> </p> </dd> </dl> </div> </div> <div class="rightClass mt20"> <div class="rightTit"><span></span>推荐专题</div> <div class="txt"> <a href="https://1200zi.500zi.com/zt/1/0/hjyg1200z.html" title="寒假有感1200字">寒假有感1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/sxxnzw1200z.html" title="书香咸宁作文1200字">书香咸宁作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/lswz1200z.html" title="朗诵文章1200字">朗诵文章1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/wdbyzw1200z.html" title="舞蹈表演作文1200字">舞蹈表演作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/jqzw1200z.html" title="坚强作文1200字">坚强作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/zwsr1200z.html" title="作文生日1200字">作文生日1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/zc1200z.html" title="摘抄1200字">摘抄1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/yj1200z.html" title="游记1200字">游记1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/cydmlzw1200z.html" title="创业的美丽作文1200字">创业的美丽作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/gezw1200z.html" title="感恩作文1200字">感恩作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/qh1200z.html" title="情话1200字">情话1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/yy1200zzy.html" title="英语1200字左右">英语1200字左右</a> <a href="https://1200zi.500zi.com/zt/1/1/mlxxh1200z.html" title="美丽新宣汉1200字">美丽新宣汉1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/1200zmm.html" title="1200字母门">1200字母门</a> <a href="https://1200zi.500zi.com/zt/1/0/1200zdksjt.html" title="1200字的考试检讨">1200字的考试检讨</a> </div> </div> </div> </div> <script>show(4);</script> <div class="footer"> <div class="footLinks"> <div class="footLink"> <div class="tit">猜你喜欢:</div> <div class="txt txtTwo"> <a href="https://1200zi.500zi.com/zt/1/0/sjzz1200z.html" title="设计制作1200字">设计制作1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/pfsj1200z.html" title="破防瞬间1200字">破防瞬间1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/ztzrbg1200z.html" title="主体责任报告1200字">主体责任报告1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/j1200zsx.html" title="家1200字赏析">家1200字赏析</a> <a href="https://1200zi.500zi.com/zt/1/0/agzw1200z.html" title="爱国作文1200字">爱国作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/xydazw1200z.html" title="相约冬奥征文1200字">相约冬奥征文1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/shhyy1200z.html" title="收获和应用1200字">收获和应用1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/1200zlysxmf.html" title="1200字论语赏析免费">1200字论语赏析免费</a> <a href="https://1200zi.500zi.com/zt/1/0/rdsqs1200z.html" title="入党申请书1200字">入党申请书1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/myjljt1200z.html" title="没有接龙检讨1200字">没有接龙检讨1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/1200zgejy.html" title="1200字高二加油">1200字高二加油</a> <a href="https://1200zi.500zi.com/zt/1/1/1200zzwytm.html" title="1200字作文有题目">1200字作文有题目</a> <a href="https://1200zi.500zi.com/zt/1/1/dhxjzw1200z.html" title="灯火写景作文1200字">灯火写景作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/sqgs1200zys.html" title="睡前故事1200字以上">睡前故事1200字以上</a> <a href="https://1200zi.500zi.com/zt/1/1/sszwsc1200z.html" title="苏轼作文素材1200字">苏轼作文素材1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/hnzw1200z.html" title="虎年作文1200字">虎年作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/wwgmgs1200z.html" title="武威革命故事1200字">武威革命故事1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/fjzw1200z.html" title="风景作文1200字">风景作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/wxzyssx1200z.html" title="王羲之艺术赏析1200字">王羲之艺术赏析1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/1200zzc.html" title="1200字摘抄">1200字摘抄</a> <a href="https://1200zi.500zi.com/zt/1/0/ltxzdsbj1200z.html" title="骆驼祥子读书笔记1200字">骆驼祥子读书笔记1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/psg1200z.html" title="评述稿1200字">评述稿1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/gf1200zyp.html" title="功夫1200字影评">功夫1200字影评</a> <a href="https://1200zi.500zi.com/zt/1/0/mjzw1200z.html" title="梦境作文1200字">梦境作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/wnqpzw1200z.html" title="温暖期盼作文1200字">温暖期盼作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/yddmhsw1200z.html" title="阅读的美好散文1200字">阅读的美好散文1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/sqdxbzw1200z.html" title="神奇的细胞作文1200字">神奇的细胞作文1200字</a> <a href="https://1200zi.500zi.com/zt/1/1/jyjhs1200z.html" title="经营计划书1200字">经营计划书1200字</a> <a href="https://1200zi.500zi.com/zt/1/0/1200zm.html" title="1200字谜">1200字谜</a> <a href="https://1200zi.500zi.com/zt/1/1/khgs1200zzy.html" title="科幻故事1200字左右">科幻故事1200字左右</a> </div> <div class="more">展开</div> </div> </div> <div class="copyRight pc"> <p class="left">1200字范文 免责声明<span></span>© 2024 All Rights Reserved.</p> <p class="right"><a href="http://beian.miit.gov.cn/" target="_blank" rel="external nofollow">湘ICP备2024057051号</a><span></span><a href="/sitemap.html" target="_blank">网站地图</a><span></span><a href="/sitemap.xml" target="_blank">XML</a><span></span></p> </div> <div class="copyRight mobile"> <p>© 2024 All Rights Reserved.</p> <p><a href="/">1200字范文</a> 免责声明<span></span></p> </div> </div> <div id="backTop" class="none"></div> <script type="text/javascript">op('content',67824661,1);</script> </body> </html>