1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > node.js抓取并分析网页内容有无特殊内容的js文件【node.js】

node.js抓取并分析网页内容有无特殊内容的js文件【node.js】

时间:2022-11-24 01:34:12

相关推荐

node.js抓取并分析网页内容有无特殊内容的js文件【node.js】

web前端|js教程

node.js抓取,nodejs抓取网页

web前端-js教程

nodejs获取网页内容绑定data事件,获取到的数据会分几次相应,如果想全局内容匹配,需要等待请求结束,在end结束事件里把累积起来的全局数据进行操作!

评选网站源码,ubuntu20.04花屏,idea社区办没有tomcat,爬虫模板库,php框架哪个好用,seo常见的优化技术推广平台lzw

举个例子,比如要在页面中找有没有,不多说了,直接放代码:

百科 源码,Ubuntu创建win引导,tomcat点击一闪而过,小骷髅爬虫多大,php旅游网站登陆注册界面,seo怎么买lzw

//引入模块var http = require("http"),fs = require(fs),url = require(url);//写入文件,把结果写入不同的文件var writeRes = function(p, r) { fs.appendFile(p , r, function(err) { if(err) console.log(err); else console.log(r); });},//发请求,并验证内容,把结果写入文件postHttp = function(arr, num) { console.log(第+num+"条!") var a = arr[num].split(" - "); if(!a[0] || !a[1]) {return; } var address = url.parse(a[1]), options = {host : address.host,path: address.path,hostname : address.hostname,method: GET,headers: {User-Agent : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 } } var req = http.request(options, function(res) {if (res.statusCode == 200) { res.setEncoding(UTF-8); var data = \; res.on(data, function (rd) { data += rd; }); res.on(end, function(q) {if(!~data.indexOf("")) { return writeRes(./no2.txt, a[0] + -- + a[1] + \ ); } else { return writeRes(./has2.txt, a[0] + -- + a[1] + "\n");} })} else { writeRes(./error2.txt, a[0] + -- + a[1] + -- + res.statusCode + \ );} }); req.on(error, function(e) {writeRes(./error2.txt, a[0] + -- + a[1] + -- + e + \ ); }) req.end();},//读取文件,获取需要抓取的页面openFile = function(path, coding) { fs.readFile(path, coding, function(err, data) {var res = data.split("\n"); for (var i = 0, rl = res.length; i < rl; i++) { if(!res[i])continue; postHttp(res, i); };})};openFile(./sites.log, utf-8);

上面代码大家可以看的懂吧,有哪里不清楚的朋友欢迎给我留言,具体的还要靠大家发挥应用到实践当中。

彩票源码出售,vscode怎么配置qt,ubuntu apt源,tomcat 软链接,toad sqlite,网页设计知识点,asp网站怎么连接数据库,网站用的服务器多少钱,水平方向滚动插件,前端面试题关于框架的问题,爬虫累,php的语法,seo网络优化是什么,springboot广播组,dede图片幻灯片标签,vs主题下载网站,怎么下载网页的css,jsp网站后台模板,上海百度后台托管,手机网站欢迎页面,超市管理系统c 代码,excel开源程序化交易lzw

下面给大家介绍Nodejs对于网页抓取的能力

首先PHP。先说优势:网上抓取和解析html的框架一抓一大把,各种工具直接拿来用就行了,比较省心。缺点:首先速度/效率很成问题,有一次下载电影海报的时候,由于是crontab定期执行,也没做优化,开的php进程太多,直接把内存撑爆了。然后语法方面也很拖沓,各种关键字 符号 太多,不够简洁,给人一种没有认真设计过的感觉,写起来很麻烦。

Node.js。优点是效率、效率还是效率,由于网络是异步的,所以基本如同几百个进程并发一样强大,内存和CPU占用非常小,如果没有对抓取来的数据进行复杂的运算加工,那么系统的瓶颈基本就在带宽和写入MySQL等数据库的I/O速度。当然,优点的反面也是缺点,异步网络代表你需要callback,这时候如果业务需求是线性了,比如必须等待上一个页面抓取完成后,拿到数据,才能进行下一个页面的抓取,甚至多层的依赖关系,那就会出现可怕的多层callback!基本这时候,代码结构和逻辑就会一团乱麻。当然可以用Step等流程控制工具解决这些问题。

最后说Python。如果你对效率没有极端的要求,那么推荐用Python!首先,Python的语法很简洁,同样的语句,可以少敲很多次键盘。然后,Python非常适合做数据的处理,比如函数参数的打包解包,列表解析,矩阵处理,非常方便。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。