1200字范文 > Python之网络爬虫（selenium爬取动态网页爬虫案例分析哈希算法与RSA加密）

Python之网络爬虫（selenium爬取动态网页爬虫案例分析哈希算法与RSA加密）

时间：2023-07-21 13:13:47

文章目录

一、selenium爬取动态网页二、爬虫案例分析三、哈希hash算法与RSA加密

一、selenium爬取动态网页

1、动态网页认知

爬虫其实就是在模仿浏览器的行为应对要多次数据的交互模拟的网站，我们有时会遇到像淘宝这样的大型网站，对数据版权看得特别重的，它们的网站有大量的工程师和技术人员去维护，它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂，难度较高。对于这类网页的爬取，我们的解决方案是: Selenium + Chrome驱动。

2、工具的介绍

url编码与解码在线测试工具：/tools/urlencode.aspx

在线正则表达式测试工具：/regex

3、Selenium的认识

一个Web自动化测试工具，最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵； Selenium 也可以做类似的事情，但是它是在浏览器中做这样的事情。

安装：pip install selenium

然后就可以在Python中from selenium import webdriver来测试是否装好。

4、爬虫方案的选择

对Selenium + Chrome驱动这个方案，从理论上来说，只要是用户能够访问的数据，都可以抓取到，但是，从时间、空间、效率上来说，这个方案有些缺陷，尤其是时间方面，可能需要多次尝试。

因此，如果能够使用的get和post的地方，最好就不用selenium

二、爬虫案例分析

1、获取id或者xpath实现登陆

from selenium import webdriverfrom mon.action_chains import ActionChainsimport timebrowser = webdriver.Chrome() # 设置Chrome为selenium的浏览器驱动# 打开浏览器实现登陆def openbrowser():# global browserurl = "/" # 百度指数的网站browser.get(url)# 点击网页的登录按钮：在对应的元素那里右击检查（或审查元素），再右击Copy，最后Copy Xpath browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click()time.sleep(3)# 自动化操作是很快的，但是操作再快，网络可能跟不上，可能页面还没加载完全，因此需要设定等待时间# 浏览器登陆id测试# 1）在用户名输入框点检查，就能找到对应的id为TANGRAM__PSP_4__userName# 然后在console控制台输入：document.getElementById("TANGRAM__PSP_4__userName").value = "XXXX"# 则就会自动填入账号XXXX# 2）密码同理，找到的id为：TANGRAM__PSP_4__password# 3）然后再找登陆按钮的id：TANGRAM__PSP_4__submit# 登陆按钮需要用click()：document.getElementById("TANGRAM__PSP_4__submit").click()# 自动传入账号密码到输入框account = "XXXX"passwd = "YYYY"try:browser.find_element_by_id("TANGRAM__PSP_4__userName").send_keys(account)browser.find_element_by_id("TANGRAM__PSP_4__password").send_keys(passwd)browser.find_element_by_id("TANGRAM__PSP_4__submit").click()except:browser.find_element_by_id("TANGRAM_12__password").send_keys(account)browser.find_element_by_id("TANGRAM_12__userName").send_keys(passwd)browser.find_element_by_id("TANGRAM_12__submit").click()time.sleep(3)

2、翻页处理

# 下一页（翻页）的处理from selenium import webdriverimport timecur_driver = webdriver.Chrome()def go_next_page(cur_driver):try:# 用xpath找到，然后获取href超链接，点击超链接next_page = cur_driver.find_element_by_xpath("").get_attribute('href')cur_driver.get(next_page) # 转到该超链接的页面time.sleep(3)return Trueexcept Exception as e:print(e)print("next page is not found!")return False

3、滚屏操作

# 滚屏操作：保证数据都加载完全def scroll_to_bottom():# 最后尝试50次滚屏到底部，参数可以自己调整print("scroll down")for i in range(50):weibo_driver.excute_script('window.scrollTo(0,document.body.scrollHeight)')html = weibo_driver.page_source # 获取到网页源码tr = etree.HTML(html)# 用xpath找到下一页的链接next_page_url = tr.xpath("")if len(next_page_url) > 0:return next_page_url[0].get('href')# 有可能下一页的网页会加载失败if len(re.findall("点击重新输入",html)) > 0:print("加载失败，请重新加载！")# 则就自动点击重新载入weibo_driver.find_element_by_link_text("点击重新载入").click()time.sleep(2)

三、哈希hash算法与RSA加密

1、哈希算法

import hashlib# # HASH字符串：直接使用hashlib.方法def hashStr(ss):h = hashlib.md5() # 实例化hash对象h.update(ss.encode("utf-8")) # 获取数据return h.hexdigest() # 开始hash# HASH文件：对文件做Hash算法chunkSize = 4096def hashFile(hashName):h = hashlib.sha256() # 实例化一个hash对象with open(hashName,"rb") as f:# 用循环来读取全部数据while True:chunk = f.read(chunkSize)if not chunk:break # 判断是否结尾，如果为空就跳出循环h.update(chunk)return h.hexdigest() # 得到文件最终的hash值if __name__ == "__main__":print(hashStr("hello world"))print(hashFile("note.txt"))

2、RSA加密

RSA加密算法是一种非对称加密算法，加密算法不重要，秘钥才能保密。秘钥：如果加解密用同一个秘钥，对称加密；如果加解密用两个不同的秘钥，非对称加密（有两个秘钥：公钥，私钥）用公钥加密的数据需要使用私钥来解；用私钥加密的数据需要使用公钥来解；公钥可以随便给别人，私钥不能给HTTPS使用的是非对称加密：服务器、客户端、浏览器通信的过程：服务器把数据用私钥加密，把加密之后的数据和公钥一起发给客户端;完成一次通信。客户端把要发给服务器的数据用服务器所给的公钥加密，然后传给服务器;完成一次通信，服务器可以用私钥来解密。

n = p*q，当n是一个巨大的数时，理论上在有限的时间之内这个两个质数p,q是分解不出来。则p，q是私钥，n就是公钥

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。