1200字范文 > 用爬虫抓取动态加载数据丨Python爬虫实战系列(6)

用爬虫抓取动态加载数据丨Python爬虫实战系列(6)

时间：2023-01-02 21:14:05

提示：最新Python爬虫资料/代码练习>>戳我直达

前言

抓取动态加载数据

话不多说，开练！

爬虫抓取动态加载数据

确定网站类型

首先要明确网站的类型，即是动态还是静态。检查方法：右键查看网页源码 —> 搜索“辛德勒的名单”关键字，如下图所示：

图1：分析网站类型

最终发现源码页中没有出现想要抓取的数据，只有一大堆的 JS 代码，由此确定该网站为动态网站。

影片详情信息

接下来，使用快捷键 F12 打开控制台进行抓包，点击NetWork选项卡 —>XHR选项 —>Preview选项卡 —> 刷新当前页面抓取数据包，如下图所示：

图2：抓取动态网站数据包

从图 2 可知，我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时，左侧栏内的数据包会实现自动加载，这是使用Ajax异步加载技术实现的。

通过查看数据 Headers 选项可以明确 url 地址、查询参数等信息，如下所示：

图3：分析Headers信息

从上图可以得知请求的基准 URL （由于还未拼接查询参数，所以称之为基准 URL），如下所示：

继续滚动鼠标滑轮可知查询参数具有如下规律：

type: 4 # 电影类型interval_id: 100:90 #代表网页上滑动条的百分比（好于100%-90%的历史片）action: '' # 空start: 0 # 每次加载电影的起始索引值 0 20 40 60limit: 20 # 每次加载的电影数量，1为初始值，后续加载时20固定不变

注意：寻找规律时，后加载出来的数据包会排在最前面，除去第一个数据包外，其余数据包如下所示：

图4：寻找查询参数值的规律

影片总数量

注意：第一个数据包反映了每个类型中电影的总数量，其 url 与响应信息如下：

影片类型与类型码

影片的类型与类型码包含在电影排行榜的主界面中，如下所示：

图5：影片类型与类型码

分析上述页面结构，然后使用正则表达式来提取想要的数据，并定义选择菜单“menu”，代码如下所示：

import redef get_all_type_films(self):# 获取影片类型和类型码url = 'https://douban-dy网址/chart'headers = self.get_headers()html = requests.get(url=url, headers=headers).textre_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'pattern = pile(re_bds, re.S)r_list = pattern.findall(html)# 存放所有类型和对应类型码大字典type_dict = {}# 定义一个选择电影类型的菜单menu = ''# r_list[{'剧情 , 11'},{},..]for r in r_list:type_dict[r[0].strip()] = r[1].strip()# 获取input的菜单，显示所有电影类型menu += r[0].strip() + '|'#返回类型字典以供后续函数调用，并返回输入菜单menu# {'剧情': '11', '喜剧': '24',...}return type_dict, menu

编写完整程序

完成上述分析后，下面开始编写 Python 爬虫程序，代码如下：

阿星提醒：不做代码伸手党~仔细看看，主要是学习其中的方法

#coding:utf8import requestsimport timeimport randomimport reimport jsonfrom ua_info import ua_listclass DoubanSpider(object):def __init__(self):self.url = 'https://douban-dy网址/j/chart/top_list?'self.i = 0# 获取随机headersdef get_headers(self):headers = {'User-Agent':random.choice(ua_list)}return headers# 获取页面def get_page(self,params):# 将json转换为 python 数据类型，并返回html = requests.get(url=self.url,params=params,headers=self.get_headers()).texthtml=json.loads(html)self.parse_page(html)# 解析并保存数据def parse_page(self,html):item = {}# html列表类型： [{电影1},{电影2},{电影3}...]for one in html:# 名称 + 评分item['name'] = one['title'].strip()item['score'] = float(one['score'].strip())print(item)self.i += 1# 获取电影总数def total_number(self,type_number):# F12抓包抓到的地址，type表示电影类型url = 'https://douban-dy网址/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(type_number)headers = self.get_headers()html = requests.get(url=url,headers=headers).json()total = int(html['total'])return total# 获取所有电影的类型和对应type值def get_all_type_films(self):# 获取类型与类型码url = 'https://douban-dy网址/chart'headers = self.get_headers()html = requests.get(url=url,headers=headers).textre_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'pattern = pile(re_bds,re.S)r_list = pattern.findall(html)# 存放所有类型和对应类型码大字典type_dict = {}#定义一个选择电影类型的菜单menu = ''for r in r_list:type_dict[r[0].strip()] = r[1].strip()# 获取input的菜单，显示所有电影类型menu += r[0].strip() + '|'return type_dict,menu# 主程序入口函数def main(self):# 获取type的值type_dict,menu = self.get_all_type_films()menu = menu + '\n你想了解什么类型电影:'name = input(menu)type_number = type_dict[name]# 获取电影总数total = self.total_number(type_number)for start in range(0,(total+1),20):#构建查询参数params = {'type' : type_number,'interval_id' : '100:90','action' : '','start' : str(start),'limit' : '20'}# 调用函数,传递params参数self.get_page(params)# 随机休眠1-3秒time.sleep(random.randint(1,3))print('电影总数量:%d部'%self.i )if __name__ == '__main__':spider = DoubanSpider()spider.main()

输出示例：