1200字范文 > Python 爬虫入门(1)获取豆瓣网页源代码

Python 爬虫入门(1)获取豆瓣网页源代码

时间：2021-04-24 06:10:32

importurllib.request #引入第三方模块

url = "" #每一个网页都有一个唯一的名称标识通常称为URL

headers = {"User-Agent":"......"} #模仿正常网页访问时，提供计算机ip地址 (反爬虫的第一步)

#user-agent 的查找方式: 按F12 点击网络(network) 点击标头(head)滑到最下面就会发现你电脑的具体ip地址

date =bytes(urllib.parse.urlencode({"name":"eric"}),encoding="utf-8") #date=bytes 将数据转化成二进制数字包 ; urllib.parse 解析url; urlencode 用于封装数据发送给爬取的网址;encoding="utf-8"编译方式。

req=urllib.request.Request(url=url,date=date,headers=headers)

#发出请求信息其中: req为一个对象 urllib.request为引入的一个包 Request封装了浏览器向服务器发送请求的信息

response =urllib.request.urlopen(req)

#封装服务器发给浏览器的响应信息 (服务器指对面的,浏览器是我自己模拟的)

print(response.read().decode("utf-8")

#输出读取的内容 ,解析器为"utf-8"

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。