1200字范文 > Python实现输入电影名字自动生成豆瓣评论词云图！

Python实现输入电影名字自动生成豆瓣评论词云图！

时间：2020-04-03 06:54:45

一、项目背景

电影逐渐成为人们生活的不可或缺的一部分，而了解一部电影的可以通过电影评分与大众推荐度，但以上的方式都太过于片面，了解一部电影的方法是通过已经观看完电影的人群的反馈，虽然电影评分和大众推荐度在一定程度上是观影人群的反馈，但是并没有电影评论的反馈真实。评论对影视剧的好坏与特色可以更加充分的体现。所以了解一部影视作品的最好方式是通过评论。出于对评论的大量且参差不齐的考虑，通过出现的高频词来分析，是通过评论了解影视剧较为便捷的方式。将高频词整合，通过词云图是极好的方式。所以项目基于以上背景决定基于网络爬虫获取豆瓣评论生成词云图实现指定电影豆瓣评论关键词词云生成器。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

二、项目的详细设计

生成器的主要结构为，爬虫模块、词云生成模块、GUI界面模块。

主要流程为在GUI输入电影名称后，将参数传给爬虫模块，具体通过get方式将电影名称封装成url发送至豆瓣服务器进入搜索界面获取指定电影URL中指定的id，将获取的id再次封装成url发送至豆瓣服务器进入评论网页，通过爬虫爬取评论数据存至本地生成文本格式。生成本地文本后，程序将调用词云模块对生成的文本提取，并进行符号删除并且删去停用词。并定位背景图以及设置图片词语参数生成词云图返回。

考虑到人工收集影评较为复杂且工作量繁重，故通过网络爬虫实现对指定豆瓣评论的爬取。爬取对象为豆瓣影评取，且需要考虑输入电影名字爬取指定的功能，所以选用的库函数有:requests、urllib.request、Beautifulsoup、用于爬取评论数据及获取。将电影名称封装url发送后，进入搜索界面，使用Xpath定位HTML代码中的搜索结果的第一项中的sid。

将获取到的的id构造url发送给豆瓣服务器，访问评论网页。进入网站后，调用定义函数getComment()对评论进行爬取，并保存至本地文本中。后续通过词云处理后生成词云图展示。

爬虫模块

以上为爬虫工作所有需要调用的包

import urllib.requestimport requests, refrom bs4 import BeautifulSoup

获取HTML源码

def getHtml(url):"""获取url页面"""headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}req = urllib.request.Request(url,headers=headers)req = urllib.request.urlopen(req)content = req.read().decode('utf-8')return content

这部分代码用于将获取后的HTML源码处理并提取出指定内容。

def getComment(url):"""解析HTML页面"""html = getHtml(url)soupComment = BeautifulSoup(html, 'html.parser')comments = soupComment.findAll('span', 'short')onePageComments = []for comment in comments:# print(comment.getText()+'\n')onePageComments.append(comment.getText()+'\n')return onePageComments

在搜索页面内定位第一个展示的电影对应的sid（即为豆瓣网里每一部电影唯一的id）

def getid(name):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',}movie_name = nameparams = {"q": movie_name}search_url = "/search"r = requests.get(search_url, params=params, headers=headers)soup = BeautifulSoup(r.content, 'lxml')first_movie_info = soup.find('a', {'class': 'nbg'})['onclick']pattern = pile('\d{4,}')sid = str(pattern.search(first_movie_info).group())return(sid)

将上一个函数返回的结果进行评论提取并存入txt文本

def get_data():with open('电影评论.txt', 'w', encoding='utf-8') as f:sid=getid(_input.get())for page in range(10): # 豆瓣爬取多页评论需要验证。url = '/subject/'+sid+'/comments?start=' + str(20*page) + '&limit=20&sort=new_score&status=P'for i in getComment(url):f.write(i)

GUI模块

GUI模块调用的库

from tkinter import *import matplotlib.pyplot as pltapp = Tk()#主窗口_input = Entry()#输入框_input.pack()app.title("电影评论关键词生成器")screenwidth = app.winfo_screenwidth()#定义窗口宽度screenheight = app.winfo_screenheight()#定义窗口高度dialog_width = 400dialog_height = 170# 前两个参数是窗口的大小，后面两个参数是窗口的位置app.geometry("%dx%d+%d+%d" % (dialog_width, dialog_height, (screenwidth - dialog_width) / 2, (screenheight - dialog_height) / 2))#设置窗口局中分布btn = Button(text='查询', command=get_data,width=10)#定义按钮，按钮的结果是调用get data函数进入爬虫模块btn.place(x=155, y=80)#定义按钮位置btn.pack()app.mainloop()

词云模块

词云模块调用的库

from wordcloud import WordCloudimport pandas as pdfrom imageio import imreadimport jiebawith open("电影评论.txt", "r", encoding='UTF-8') as fin1:all_words = cut_words(fin1)#读取文本#定义停用词stop = ['的','你','了','将','为','例',' ','多','再','有','是','等','天','次','让','在','我','也','就','这样','啊','和','都','《','》','，','看','!','什么','怎么','这么','很','给','没有','不是','说','不','吗','？','！' ,'?','。' ,'...' ,'电影','主','男','女' ]words_cut = []#定义停用词for word in all_words:if word not in stop:words_cut.append(word)word_count = pd.Series(words_cut).value_counts()back_ground = imread("F:\\flower.jpg")#自己定义图片位置wc = WordCloud(font_path="C:\\Windows\\Fonts\\simhei.ttf", #设置字体background_color="white", #设置词云背景颜色max_words=400, #词云允许最大词汇数mask=back_ground, #词云形状max_font_size=400, #最大字体大小random_state=90 #配色方案的种数)wc1 = wc.fit_words(word_count) #生成词云plt.figure()plt.imshow(wc1)plt.axis("off")plt.show()wc.to_file("ciyun.png")

三、项目的分析与测试

界面如下：输入电影名称（采用《八佰》作为示例）

返回结果：

结果分析：成功将豆瓣社区中《八佰》的评论区出现的高频次进行生成词云图并返回。

全部代码

from tkinter import *import urllib.requestimport requests, refrom bs4 import BeautifulSoupfrom wordcloud import WordCloudimport pandas as pdfrom imageio import imreadimport matplotlib.pyplot as pltimport jiebadef getHtml(url):"""获取url页面"""headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}req = urllib.request.Request(url,headers=headers)req = urllib.request.urlopen(req)content = req.read().decode('utf-8')return contentdef cut_words(top_search):top_cut=[]for top in top_search:top_cut.extend(list(jieba.cut(top))) #使用精确模式切割词汇return top_cutdef getComment(url):"""解析HTML页面"""html = getHtml(url)soupComment = BeautifulSoup(html, 'html.parser')comments = soupComment.findAll('span', 'short')onePageComments = []for comment in comments:# print(comment.getText()+'\n')onePageComments.append(comment.getText()+'\n')return onePageCommentsdef getid(name):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',}movie_name = nameparams = {"q": movie_name}search_url = "/search"r = requests.get(search_url, params=params, headers=headers)soup = BeautifulSoup(r.content, 'lxml')first_movie_info = soup.find('a', {'class': 'nbg'})['onclick']pattern = pile('\d{4,}')sid = str(pattern.search(first_movie_info).group())return(sid)def get_data():with open('电影评论.txt', 'w', encoding='utf-8') as f:sid=getid(_input.get())for page in range(10): # 豆瓣爬取多页评论需要验证。url = '/subject/'+sid+'/comments?start=' + str(20*page) + '&limit=20&sort=new_score&status=P'for i in getComment(url):f.write(i)with open("电影评论.txt", "r", encoding='UTF-8') as fin1:all_words = cut_words(fin1)#定义停用词stop = ['的','你','了','将','为','例',' ','多','再','有','是','等','天','次','让','在','我','也','就','这样','啊','和','都','《','》','，','看','!','什么','怎么','这么','很','给','没有','不是','说','不','吗','？','！' ,'?','。' ,'...' ,'电影','主','男','女' ]words_cut = []for word in all_words:if word not in stop:words_cut.append(word)word_count = pd.Series(words_cut).value_counts()back_ground = imread("F:\\flower.jpg")wc = WordCloud(font_path="C:\\Windows\\Fonts\\simhei.ttf", #设置字体background_color="white", #设置词云背景颜色max_words=400, #词云允许最大词汇数mask=back_ground, #词云形状max_font_size=400, #最大字体大小random_state=90 #配色方案的种数)wc1 = wc.fit_words(word_count) #生成词云plt.figure()plt.imshow(wc1)plt.axis("off")plt.show()wc.to_file("ciyun.png")print('succeed！\n')app = Tk()_input = Entry()#_input.place(x=113, y=80)_input.pack()app.title("电影评论关键词生成器")screenwidth = app.winfo_screenwidth()screenheight = app.winfo_screenheight()dialog_width = 400dialog_height = 170# 前两个参数是窗口的大小，后面两个参数是窗口的位置app.geometry("%dx%d+%d+%d" % (dialog_width, dialog_height, (screenwidth - dialog_width) / 2, (screenheight - dialog_height) / 2))btn = Button(text='查询', command=get_data,width=10)btn.place(x=155, y=80)btn.pack()app.mainloop()

END 学业繁重，好久没更新，后续寒假可能会更新，一起加油💪

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。