1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 知识点讲解五:处理js异步加载问题

知识点讲解五:处理js异步加载问题

时间:2020-07-08 12:37:52

相关推荐

知识点讲解五:处理js异步加载问题

文章目录

前言环境代码思路原代码

前言

在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。

环境

Python 3.6.5需要安装的包:selenium编译器:sublime text 3

代码思路

导入需要用到的Python包

import selenium,timefrom selenium import webdriver

用打开浏览器

driver = webdriver.Chrome(executable_path='chromedriver.exe')

输入我们需要爬取的网站

driver.get("/ch/milite/")

如果程序执行错误,浏览器没有打开,那么应该是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里。下载驱动,然后将驱动文件路径配置在环境变量即可。

驱动器下载传送门

将网页的滚动条拉到底部,触发JS加载新数据

jsCode = "var q=document.documentElement.scrollTop=100000"driver.execute_script(jsCode)

休息3秒,从JS异步加载的完成到新闻页面的更新需要一些时间

time.sleep(3)

进行标签定位,定位到class="item-pics"的标签

div = driver.find_elements_by_class_name("item-pics")for each in div:each = each.find_element_by_tag_name("a")

打印爬取到的内容

print(each.text)

原代码

#这是一个军事新闻数据采集脚本import selenium,timefrom selenium import webdriverif __name__ == '__main__':driver = webdriver.Chrome(executable_path='chromedriver.exe')driver.get("/ch/milite/")for each in range(1,10):jsCode = "var q=document.documentElement.scrollTop=100000"driver.execute_script(jsCode)time.sleep(3)print(each)time.sleep(3)div = driver.find_elements_by_class_name("item-pics")for each in div:each = each.find_element_by_tag_name("a")print(each.text)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。