1200字范文 > python 豆瓣评论数据分析_Python数据可视化分析--豆瓣电影Top250

python 豆瓣评论数据分析_Python数据可视化分析--豆瓣电影Top250

时间：2024-04-07 23:27:22

Python数据分析–豆瓣电影Top250

利用Python爬取豆瓣电影TOP250并进行数据分析，对于众多爬虫爱好者，应该并不陌生。很多人都会以此作为第一个练手的小项目。当然这也多亏了豆瓣的包容，没有加以太多的反爬措施，对新手比较友好。

手动声明

本文链接：/qq_45176548/article/details/112735850

数据爬取

翻页操作

第一页:/top250

第二页：/top250?start=25&filter=

第三页：/top250?start=50&filter=

观察可知，我们只需要修改start参数即可

反扒说明

推荐阅读：

# -*- coding: utf-8 -*-

# @Author: Kun

import requests

from lxml import etree

import pandas as pd

df = []

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4343.0 Safari/537.36',

'Referer': '/top250'}

columns = ['排名','电影名称','导演','上映年份','制作国家','类型','评分','评价分数','短评']

def get_data(html):

xp = etree.HTML(html)

lis = xp.xpath('//*[@id="content"]/div/div[1]/ol/li')

for li in lis:

"""排名、标题、导演、演员、"""

ranks = li.xpath('div/div[1]/em/text()')

titles = li.xpath('div/div[2]/div[1]/a/span[1]/text()')

directors = li.xpath('div/div[2]/div[2]/p[1]/text()')[0].strip().replace("\xa0\xa0\xa0","\t").split("\t")

infos = li.xpath('div/div[2]/div[2]/p[1]/text()')[1].strip().replace('\xa0','').split('/')

dates,areas,genres = infos[0],infos[1],infos[2]

ratings = li.xpath('.//div[@class="star"]/span[2]/text()')[0]

scores = li.xpath('.//div[@class="star"]/span[4]/text()')[0][:-3]

quotes = li.xpath('.//p[@class="quote"]/span/text()')

for rank,title,director in zip(ranks,titles,directors):

if len(quotes) == 0:

quotes = None

else:

quotes = quotes[0]

df.append([rank,title,director,dates,areas,genres,ratings,scores,quotes])

d = pd.DataFrame(df,columns=columns)

d.to_excel('Top250.xlsx',index=False)

for i in range(0,251,25):

url = "/top250?start={}&filter=".format(str(i))

res = requests.get(url,headers=headers)

html = res.text

get_data(html)

原文链接：/qq_45176548/article/details/112735850

结果如下：

数据分析

获取数据后，就可以对自己感兴趣的内容进行分析了

数据预处理

上映年份格式不统一

year = []

for i in df["上映年份"]:

i = i[0:4]

year.append(i)

df["上映年份"] = year

df["上映年份"].value_counts()

x1 = list(df["上映年份"].value_counts().sort_index().index)

y1 = list(df["上映年份"].value_counts().sort_index().values)

y1 = [str(i) for i in y1]

上映年份分布

c1 = (

Bar()

.add_xaxis(x1)

.add_yaxis("影片数量", y1)

.set_global_opts(

title_opts=opts.TitleOpts(title="Top250年份分布"),

datazoom_opts=opts.DataZoomOpts(),

)

.render("1.html")

)

这里可以看出豆瓣电影TOP250里，电影的上映年份，多分布于80年代以后。其中有好几年是在10部及以上的。

评分分布情况

plt.figure(figsize=(10,6))

plt.hist(list(df["评分"]),bins=8,facecolor="blue", edgecolor="black", alpha=0.7)

plt.show()

大多分布于「8.5」到「9.2」之间。最低「8.3」，最高「9.6」

排名与评分分布情况

plt.figure(figsize=(10,5), dpi=100)

plt.scatter(df.index,df['评分'])

plt.show()

总的来说，排名越靠前，评价人数越多，并且分数也越高。

评论人数TOP10

c2 = (

Bar()

.add_xaxis(df1["电影名称"].to_list())

.add_yaxis("评论数", df1["评价分数"].to_list(),color=Faker.rand_color())

.reversal_axis()

.set_series_opts(label_opts=opts.LabelOpts(position="right"))

.set_global_opts(title_opts=opts.TitleOpts(title="电影评论Top10"))

.render("2.html")

)

让我们来看看人气最高的有哪些影片，你又看过几部呢？

导演排名

可以看到这些导演很🐂呀

电影类型图

from collections import Counter

colors = ' '.join([i for i in df[ '类型']]).strip().split()

c = dict(Counter(colors))

发现有个错误值

d = c.pop('1978(中国大陆)')

删除即可

对于删除字典的值有以下方法

方法一 pop(key[,default])

d = {'a':1,'b':2,'c':3}

# 删除key值为'a'的元素，并赋值给变量e1

e1 = d.pop('a')

print(e1)

# 如果key不存在，则可以设置返回值

e2 = d.pop('m','404')

print(e2)

# 如果key不存在，不设置返回值就报错

e3 = d.pop('m')

方法二 del[d[key]]

d = {'a':1,'b':2,'c':3}

# 删除给定key的元素

del d['a']

print(d)

# 删除不存在的元素

del d['m']

clear一次性删除所有字典元素

d = {'a':1,'b':2,'c':3}

print(d)

# 删除所有元素，允许d为{}

d.clear()

print(d)

统计展示

可视化展示

c = (

WordCloud()

.add(

"",

words,

word_size_range=[20, 100],

textstyle_opts=opts.TextStyleOpts(font_family="cursive"),

)

.set_global_opts(title_opts=opts.TitleOpts(title="WordCloud-自定义文字样式"))

.render("wordcloud_custom_font_style.html")

)

往期回顾

到这里就结束了，如果对你有帮助你，欢迎点赞关注，你的点赞对我很重要

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。