1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 如何简单有效的学习Python爬虫 – CSS – 前端 python 多线程并发

如何简单有效的学习Python爬虫 – CSS – 前端 python 多线程并发

时间:2021-06-26 18:15:50

相关推荐

如何简单有效的学习Python爬虫 – CSS – 前端 python 多线程并发

应该先有一个爬虫思路:

获得大家需要爬取的网页源码;

在源码里找到你需要的信息,提取出来;

现在大家说一个最简单的方法,也就是入门。首先是python和urllib。这里大家举例的版本是python2.7x也就是2.7之后的版本,大家没有用python3。首先大家需要一个组件:urllib2,这是python获取URL的一个组件。

首先大家创建一个

urllib2_test01.py

然后呼入下面代码:

执行的话写的python的代码如下:

会看到的结果如下:

最开始的四行代码做的是爬取百度首页的工作。第一行是将之前提到的组件引入来让偶使用,第二行是调用urllib2库中的urlopen的方法,这个方法就是接受一个url,之后将请求后得到的回应封装到response的对象里面。最后异步是调用response对象的read方法,将请求的回应内容以字符串的形式给html变量;

这只是举了个很简单的例子,还有其他的方法,但是直接用python给urllib2给一个网站发送请求的话,是有些唐突的。就好像是,大家每个家都有门,你是一个路人直接闯进来就显得不是很礼貌,有的网站也会拒绝你的请求。但是如果大家换一个身份的话,就是这样:

所以大家就应该给大家这个代码加上一个身份,这个身份就是User-Agent头;如果大家不是专业学习前端专业的,这个东西对于C或者是后端开发的人是很头疼的。

这里有很重要的一句话,就是大家用不同的浏览器发送请求的时候,会有不用的User-Agent头。浏览器就是世界上被允许的身份。真正爬虫的重点和难点也都在反爬等等阶段。

大家可以编辑

urllib2_test03.py

,上面这一大段代码就是一个基本的操作,那么如果大家想实现一个简单的爬虫,上面也就足够了。如果你还想更加深入的了解urllib2的其他操作,可以关注偶哦。还有更多的爬虫教程。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。