1200字范文 > 豆瓣电影top250爬虫+数据可视化分析

豆瓣电影top250爬虫+数据可视化分析

时间：2023-07-30 05:49:00

我们本次的项目主要是爬取豆瓣top250的电影详情链接，图片链接，影片中外文名，评分，评价数等数据，并作数据的持久化处理（即存放到excel中）。在本次项目中，我主要负责页面数据的获取以及数据的存储，利用urllib库获取页面，再利用python库xlwt将爬取的数据datalist写入Excel表格中。

本项目需要实现的模块：

爬虫调度器：爬虫调度器只要负责统筹其他四个模块的协调工作；

URL 管理器：负责管理 URL 链接，维护已经爬取的 URL 集合和未爬取的 URL 集合，提供获取新 URL 链接接口；

HTML 下载器：用于从 URL 管理器中获取未爬取的 URL 链接并下载 HTML 网页；

HTML 解析器：用于从 HTML 下载器中获取已经下载的 HTML 网页，并从中解析出新的 URL 交给 URL 管理器，解析出有效数据交给数据存储器；

数据存储器：用于将 HTML 解析器解析出来的数据通过文件或者数据库形式存储起来。

爬虫思路如下：

1.首先通过浏览器查看目标网页并借助Chrome开发者工具(F12)来分析网页，在Elements下找到需要的数据位置，然后通过HTTP库向目标站点发起请求，请求包含了额外的header等信息，如果服务器能正常响应，就会得到一个Response，这便是所要获取的页面内容。

2.获取页面数据：

先定义一个获取页面的函数askURL，再传入一个url参数表示网址，如豆瓣电影 Top 2500；

然后urllib.Request生成请求；

urllib.urlopen发送请求获取响应；