1200字范文 > Python爬虫实战 pyecharts模块 Python实现豆瓣电影TOP250数据可视化

Python爬虫实战 pyecharts模块 Python实现豆瓣电影TOP250数据可视化

时间：2019-01-17 03:21:15

前言

利用Python实现豆瓣电影TOP250数据可视化。废话不多说。

让我们愉快地开始吧~

开发工具

Python版本：3.6.4

相关模块：

pandas模块

pyecharts模块；

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

Scrapy框架

之前了解了pyspider框架的使用，但是就它而言，只能应用于一些简单的爬取。

对于反爬程度高的网站，它就显得力不从心。

那么就轮到Scrapy上场了，目前Python中使用最广泛的爬虫框架。

当然目前我学习的都是简单爬虫，上述内容都是道听途说，并不是切身体会。

Scrapy的安装相对复杂，依赖的库较多。

不过通过度娘，最后我是成功安装了的。放在C盘，如今我的C盘要爆炸。

首先任意文件夹下命令行运行scrapy startproject doubanTop250，创建一个名为doubanTop250的文件夹。

然后在文件夹下的py文件中改写程序。

进入文件夹里，命令行运行scrapy genspider douban /top250。

最后会生成一个douban.py文件，Scrapy用它来从网页里抓取内容，并解析抓取结果。

最终修改程序如下。

import scrapyfrom scrapy import Spiderfrom doubanTop250.items import Doubantop250Itemclass DoubanSpider(scrapy.Spider):name = 'douban'allowed_domains = ['']start_urls = ['/top250/']def parse(self, response):lis = response.css('.info')for li in lis:item = Doubantop250Item()# 利用CSS选择器获取信息name = li.css('.hd span::text').extract()title = ''.join(name)info = li.css('p::text').extract()[1].replace('\n', '').strip()score = li.css('.rating_num::text').extract_first()people = li.css('.star span::text').extract()[1]words = li.css('.inq::text').extract_first()# 生成字典item['title'] = titleitem['info'] = infoitem['score'] = scoreitem['people'] = peopleitem['words'] = wordsyield item# 获取下一页链接,并进入下一页next = response.css('.next a::attr(href)').extract_first()if next:url = response.urljoin(next)yield scrapy.Request(url=url, callback=self.parse)pass

生成的items.py文件，是保存爬取数据的容器，代码修改

import scrapyclass Doubantop250Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title = scrapy.Field()info = scrapy.Field()score = scrapy.Field()people = scrapy.Field()words = scrapy.Field()pass

在这个之后，还需要在settings.py文件添加用户代理和请求延时。

最后在douban.py所在文件夹下打开命令行，输入scrapy crawl douban。