1200字范文 > 如何简单有效的学习Python爬虫 – CSS – 前端 python 多线程并发

如何简单有效的学习Python爬虫 – CSS – 前端 python 多线程并发

时间：2021-06-26 18:15:50

应该先有一个爬虫思路：

获得大家需要爬取的网页源码；

在源码里找到你需要的信息，提取出来；

现在大家说一个最简单的方法，也就是入门。首先是python和urllib。这里大家举例的版本是python2.7x也就是2.7之后的版本，大家没有用python3。首先大家需要一个组件：urllib2，这是python获取URL的一个组件。

首先大家创建一个

urllib2_test01.py

然后呼入下面代码：

执行的话写的python的代码如下：

会看到的结果如下：

最开始的四行代码做的是爬取百度首页的工作。第一行是将之前提到的组件引入来让偶使用，第二行是调用urllib2库中的urlopen的方法，这个方法就是接受一个url，之后将请求后得到的回应封装到response的对象里面。最后异步是调用response对象的read方法，将请求的回应内容以字符串的形式给html变量；

这只是举了个很简单的例子，还有其他的方法，但是直接用python给urllib2给一个网站发送请求的话，是有些唐突的。就好像是，大家每个家都有门，你是一个路人直接闯进来就显得不是很礼貌，有的网站也会拒绝你的请求。但是如果大家换一个身份的话，就是这样：

所以大家就应该给大家这个代码加上一个身份，这个身份就是User-Agent头；如果大家不是专业学习前端专业的，这个东西对于C或者是后端开发的人是很头疼的。

这里有很重要的一句话，就是大家用不同的浏览器发送请求的时候，会有不用的User-Agent头。浏览器就是世界上被允许的身份。真正爬虫的重点和难点也都在反爬等等阶段。

大家可以编辑

urllib2_test03.py

，上面这一大段代码就是一个基本的操作，那么如果大家想实现一个简单的爬虫，上面也就足够了。如果你还想更加深入的了解urllib2的其他操作，可以关注偶哦。还有更多的爬虫教程。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。