Python网络爬虫之代理IP
反爬机制:封IP。单个IP设置访问次数阈值,超过阈值,禁止该IP访问。
代理:破解封IP这种反爬机制。
什么是代理?
——代理服务器,代理网络用户获取服务器信息。
代理的作用:
——突破自身IP访问的限制
——隐藏自身真实IP
代理相关的网站:
——快代理
——西祠代理
——
代理IP的类型:
——http:应用到http协议对应的url中
——https:应用到https协议对应的url中
代理IP的匿名度:
——透明:服务器知道该次请求使用了代理,也知道请求对应的真实IP
——匿名:服务器知道该次请求使用了代理,但不知道请求对应的真实IP
——高匿:服务器不知道该次请求使用了代理,更不知道请求对应的真实IP
代理IP在爬虫中的用法:
——在进行请求时,加入参数proxies={"协议http或https": '代理IP'}
,例如,
page_text = requests.get(url=url,headers=headers,proxies={"https": '222.110.147.50:3128'}).text