前言
当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词频词云图。
1. 英文词云
我们先绘制英文文本的词云图,因为它相对简单一些。这里以《海上钢琴师》这部电影的剧本为例。
首先,准备好电影剧本的文本文件(如下图):
接下来,我们绘制一个最简单的矩形词云图,代码如下:
1importos2fromosimportpath3fromwordcloudimportWordCloud4frommatplotlibimportpyplotasplt5#获取当前文件路径6d=path.dirname(__file__)if"__file__"inlocals()elseos.getcwd()7#获取文本text8text=open(path.join(d,legend1900.txt)).read()9#生成词云10wc=WordCloud(scale=2,max_font_size=100)11wc.generate_from_text(text)12#显示图像13plt.imshow(wc,interpolation=ilinear)14plt.axis(