1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > python爬虫-爬取爱情公寓电影()豆瓣短评并数据分析

python爬虫-爬取爱情公寓电影()豆瓣短评并数据分析

时间:2019-11-09 00:34:30

相关推荐

python爬虫-爬取爱情公寓电影()豆瓣短评并数据分析

说起这部电影,我本人并没有看,其实原先是想为了情怀看一下,但是好友用亲身经历告诉我看来会后悔的,又去看了看豆瓣评分,史无前例的,,,低。出于兴趣就爬取一下这部电影在豆瓣上的短评,并且用词云分析一下。

1.分析url

经过分析不难发现每一页短评的url都是一致的除了page的参数值,这个值从0开始是20的整数倍。由此,可以通过字符串拼接构造request的url序列。

2.分析html结构

通过分析源代码,不难发现id存放在一个a标签下,评论内容存放在class为short的一个span标签下。

对id存在的a标签的查找废了一些时间,干扰项太多,几次换汤方才减少干扰项,即使如此最后还是正则表达式匹配该标签得到值。

对评论内容的标签查询相对简单。

3.本地存储数据

得到两个列表后,按照“id content”格式存储于本地txt中,以便分析。

4.数据分析

由于得到的数据主要是评论内容,那么这里主要进行jieba+wordcloud的分词词云分析。

创建词云的时候jieba分词后为了方便,需要剔除一些关键字如“电影”。

当然,也遇到不少问题,例如file.read()的结束。

5.项目代码及结果图

import requestsimport refrom bs4 import BeautifulSoupimport jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud, STOPWORDSdef parse_html(html):''':param html: 传入的response的字符串:return: 返回id的列表和评论内容的列表'''soup = BeautifulSoup(html, "html.parser")html = soup.bodysoup = BeautifulSoup(str(html), "html.parser")html = soup.find("div", attrs={"id": "wrapper"})a_list = [item.text for item in html.find_all("a", class_=pile(r'^'), href=pile(r'^/people'))]span_list = [item.text for item in html.find_all("span", class_="short")]return a_list, span_listdef local_store():'''经过观察得知每一页的url结构,组成url地址不断访问,将id和评论存入本地txt文件:return:None'''for i in range(0, 2000, 20):# 访问的url地址url = "/subject/24852545/comments?start=" + str(i) + "&limit=20&sort=new_score&status=P"# 访问的头headers = {'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Referer': '/nn/','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8',}rsp = requests.get(url=url, headers=headers)if rsp.status_code == 200:html = rsp.textelse:html = Noneif html is not None:id_list, content_list = parse_html(html)with open("text.txt", 'a', encoding="utf-8") as f:# 一个id必然对应一个评论,所以一个循环控制即可for i in range(len(id_list)):text = id_list[i] + " " + content_list[i]+"\n"f.write(text)def data_analysis():'''进行得到txt文件内的数据分析由于数据限制,这里只进行词云分析:return: None'''with open("text.txt", 'r', encoding="utf-8") as f:text = f.read()comment = jieba.cut(text, cut_all=False)# 获得文件内容comment = " ".join(comment)print(comment)# 解析背景图bg_img = plt.imread("bg.jpg")# 拦截词stopwords = set()stopwords.add("爱情公寓")stopwords.add("爱情")stopwords.add("公寓")stopwords.add("电影")# 创建wc对象wc = WordCloud(width=1800, height=1000, background_color='white', font_path="C:/Windows/Fonts/STFANGSO.ttf", mask=bg_img, stopwords=stopwords, max_font_size=400, random_state=50)wc.generate_from_text(comment)plt.imshow(wc)plt.axis('off') plt.show()wc.to_file("result.jpg")if __name__ == '__main__':local_store()data_analysis()

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。