1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 电影评论观点情感倾向性分析方法与流程

电影评论观点情感倾向性分析方法与流程

时间:2022-06-13 04:09:08

相关推荐

电影评论观点情感倾向性分析方法与流程

本发明涉及信息抽取与数据挖掘

技术领域:

,尤其涉及电影评论观点情感倾向性分析方法。

背景技术:

:互联网大数据时代,在线评论成为了口碑的代名词,也是消费者情感态度最直接的表达方式和渠道。对消费者评论的分析,对消费者来说,能够获取产品全方位的评价,从而多维度了解产品,方便用户进行决策。对于商家来说,可以了解消费者喜好、了解市场,从而提升服务质量、增加客户粘性。随着互联网媒体技术的日益革新,影院行业和家庭娱乐行业在内的电影娱乐产业正在蓬勃发展,电影已成为人们日常娱乐选项,而人们对电影的接受与欢迎,也滋生了大量的评论信息。从大众评论中提取主观性观点,并判断大众的正面倾向或负面倾向性是自然语言处理领域的信息抽取与挖掘中的重要问题,同时电影评论信息在价值观传递、影视环境塑造等方面,展示着自身的价值,对其展开分析,有助于影视研究的深化发展。因此,对电影评论观点进行情感倾向性分析具有重大意义。目前普遍使用的用户评论观点提取主要是无监督的规则提取与聚类算法等方法。基于规则提取的方法,主要是依据句法结构人工总结规则来抽取评论中的观点,但人工整理的规则不能涵盖所有评论观点表述方式,所以该方法能提取的有效观点有限。基于聚类的方法,简单但准确率不高,很难生成较为合理准确的评论标签。目前评论情感分析常用的方法有词典匹配与分类算法等。基于情感词典的方法,完全依赖于情感词典,受限于词典的规模大小;而情感分类算法是有监督的方法,有的训练集是根据评论信息及评分组合获取,有的是人工标注,需要消耗大量人工成本。此外,不同行业的评论信息往往会有各自的关注点与侧重点,所以进行情感分析的方式会略有差异。对于电影评论而言,与电商、餐厅、酒店等在线评论信息相比,包含的用户体验与感受信息比较复杂,所以目前的情感分析与观点抽取方法并不能完全适用于影评分析。此外,许多在线评论研究将评论观点抽取与情感分类作为两个单独的研究模块,而用户对某一产品或事物的评论往往是多维度的,且对产品各个维度评价褒贬不一,直接分析用户情感是好评(正向)或差评(负向)显然不够正确,因此对用户提取的主要观点维度进行情感分析更具有实际价值。比如,对于评论“这部电影的演员演技炸裂,但故事情节不佳”,经情感分析后得出(演员,正向)与(剧情,负向)的结果更加准确。技术实现要素:本发明的目的在于提供一种电影评论观点情感倾向性分析方法,能全面准确地反映出用户对影片的情感表达。实现上述目的的技术方案是:一种电影评论观点情感倾向性分析方法,包括:步骤s1,从影评网站爬取各类别的多部电影的影片描述信息和评论信息;步骤s2,对采集的影评描述信息和评论信息进行数据预处理;步骤s3,制定多条评论观点提取规则,利用评论观点提取规则从评论信息的评论内容的各个评论语句中获得观点词与情感词,然后将所有观点词和情感词分别保存为评论标签词库与观点情感词库;步骤s4,通过关键词匹配打标或人工打标,对各个评论语句进行评论标签类别标记和情感倾向性标记;步骤s5,生成由评论标签分类模型和标签情感分类模型组成的评论观点情感分析模型;步骤s6,针对目标影评,利用评论观点情感分析模型自动生成评论标签类别标记和情感倾向性标记。优选的,所述步骤s1中,电影的分类包括:爱情、动画、动作、科幻、恐怖、喜剧和悬疑;所述影片描述信息包括影片名、导演名、主演名、类型和总评分;所述评论信息包括:评论者昵称、评论有用数、评论时间、评论内容和评分。优选的,所述的数据预处理包括:将采集的所有评论信息整合形成一个评论语料库;去除评论语料库中重复的数据;删除评论语料库中评论内容缺失的数据;将评论语料库中繁体中文全部转化为简体中文;从采集的各影片描述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记。优选的,所述步骤s3包括:根据依存句法结构、词语间的词性和评论观点中观点词与情感词的表达结构来构建多条评论观点提取规则;对评论语料库中评论内容进行分句、分词、词性标注和依存句法分析,获得各个评论语句,查看评论语句是否匹配某条评论观点抽取规则,匹配则获取观点词和情感词,将获取的所有观点词和情感词分别保存为评论标签词库与观点情感词库。优选的,所述的依存句法结构包括:主谓结构、动宾结构、定中结构、状中结构、动补结构和并列结构;所述的词语间的词性包括:主语成分、宾语或形似宾语成分、定语成分以及名词成分;形似宾语指间接或类似宾语的结构;所述的观点词与情感词的表达结构,指:主语成分为观点词,宾语或形似宾语成分为情感词;定语成分为情感词,被其修饰的名词成分为观点词。优选的,所述步骤s4包括:获取标签类别词典和情感词典;对于所述步骤s3中能提取出观点词和情感词的评论语句进行关键词匹配打标:将获取的观点词与标签类别词典进行匹配,将获取的情感词与情感词典进行匹配,若两者均能匹配成功,给该评论语句打上标签类别标记以及情感倾向性标记;否则,进行人工标签类别标记与情感倾向性标记;对于所述步骤s3中未提取出观点词和情感词的评论语句,进行人工标签类别标记与情感倾向性标记。优选的,所述的获取标签类别词典,包括:将评论标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”;通过词向量模型训练各评论语句获得训练好的词向量模型;利用评论标签词库的词语用训练好的词向量模型表示,再利用k均值聚类算法将评论标签词库中的词语聚为k个类别;人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观感”8个维度,并对每个类簇下的词进行筛选,保留相关的词组成初步的标签类别词典;利用训练好的词向量模型获取初步的标签类别词典中标签类别词的相关词扩充标签类别词典,去掉词典中重复词,生成最终的标签类别词典;所述的获取情感词典指:先收集开源的正负情感词典进行整理合并,然后统计所述观点情感词库中词频,保留大于设定阈值的所有词,然后人工删掉与电影评论情感无关的词语,形成情感词典。优选的,所述步骤s5包括:利用关键词匹配打标的数据集以及人工打标的数据集,分别训练生成两个初步的评论标签分类模型以及两个初步的标签情感分类模型;将两个初步的评论标签分类模型加权融合生成最终的评论标签分类模型;将两个初步的标签情感分类模型加权融合生成最终的标签情感分类模型。优选的,所述的初步的评论标签分类模型或初步的标签情感分类模型的生成步骤,包括:对关键词匹配打标的数据集以及人工打标的数据集采用上采样策略,进行数据平衡;将数据平衡后的关键词匹配打标的数据集以及人工打标的数据集按预设比例划分为训练集和测试集;对训练集中语料进行分词,去除停用词,然后采用tf-idf算法提取文本特征,再计算各特征的卡方值进行特征降维;将数据导入随机森林分类模型,进行模型训练、保存与评估。优选的,所述步骤s6,包括:抽取观点词和情感词,若可以获取,则进行关键词匹配,包括标签类别匹配和情感词匹配,如果两者都能匹配成功,就直接输出标签类别标记与情感倾向性标记;否则,直接调用评论标签分类模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值t1和t2,若标签类别预测概率p1大于t1且标签情感预测概率p2大于t2,则输出标签类别标记与情感倾向性标记。本发明的有益效果是:本发明面向电影评论内容与情感倾向都较为复杂的文本信息进行处理,采用多种方法多种策略相结合的方式对电影评论数据进行情感倾向性分析,能够较为准确的捕获观众对某部电影某些方面的情感倾向。附图说明图1是本发明的电影评论观点情感倾向性分析方法的流程图;图2是本发明中关键词匹配打标的流程图;图3是本发明中评论标签分类模型融合示意图;图4是本发明中标签情感分类模型融合示意图;图5是本发明中分类模型构建流程示意图;图6是本发明中评论情感标签自动生成流程图。具体实施方式下面将结合附图对本发明作进一步说明。请参阅图1,本发明的电影评论观点情感倾向性分析方法,主要是对影评数据做评论观点提取,进行观点的打标分类与情感倾向性分析,即获取评论标签类别及其情感倾向,同时构建评论观点情感分析模型以实现对新影评数据进行分析归类,贴上类别以及情感标签。包括下列步骤:步骤s1,数据爬取:从影评网站爬取爱情、动画、动作、科幻、恐怖、喜剧和悬疑类别下的多部电影的影片描述信息及各部电影的评论信息。其中,影片描述信息包括影片名、导演名、主演名、类型、总评分等信息。影片的评论信息包括评论者昵称、评论有用数、评论时间、评论内容和评分等信息。步骤s2,对影片描述信息和评论信息进行数据预处理,包括:整合数据,将采集的所有评论信息整合成一个评论语料库;数据去重,去除评论语料库中的重复数据;处理缺失值,删除评论语料库中评论内容缺失的数据;中文繁体处理,将评论语料库中繁体中文全部转化为简体中文;自定义用户词典,从采集的各影片描述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记。步骤s3,评论观点抽取:根据现代汉语中依存句法结构、词语间的词性,再结合实际评论观点中观点词与情感词表达结构制定多条普适性的评论观点提取规则。对评论语料库中评论内容进行分句、分词、词性标注、依存句法分析等操作,获得各个评论语句,然后查看评论语句是否匹配某条评论观点抽取规则,满足则获取(观点词,情感词),最后将获取的所有观点词和情感词分别保存为评论标签词库与观点情感词库。其中,评论观点抽取规则根据依存句法结构将规则主要分为两类:一是主谓结构(sbv)为核心的规则体系,二是以定中结构(att)为核心的规则体系。提取规则中涉及依存句法关系如表1所示:关系类型tagdescriptionexample主谓结构sbvsubject-verb我送她一束花(我<--送)动宾结构vobverb-object我送她一束花(送-->花)定中结构attattribute红苹果(红<--苹果)状中结构advadverbial非常美丽(非常<--美丽)动补结构cmpcomplement做完了作业(做-->完)并列结构coocoordinate大山和大海(大山-->大海)表1进一步地,以sbv为核心的规则体系主要分为4大类,如表2所示:表2从表2中可以看出,以sbv为核心的规则主要是以名词性主语直接或者间接与宾语或类似宾语的结构(以下将间接或类似宾语的结构称作形似宾语)建立关系连接。所抽取的主语成分为评论的观点词,抽取的形似宾语成分为评论观点的情感词。该类规则并非仅仅涉及表2中所列出的句式结构,此外还要考虑主语与形似宾语是否存在并列结构,再者因为否定词影响情感的倾向,所以还需要考虑形似宾语是否存在副词修饰。例如,对于影评“电影和剧情不错”,根据所提出的规则可抽取出两组观点词与情感词对(电影,不错),(剧情,不错);“题材丰富新颖”可获取(题材,丰富)和(题材,新颖)标签对;“电影不好看”可提取出(电影,不好看)。进一步地,以att为核心的规则体系也分为4类,具体规则见表3。表3定语是用来修饰、限定、说明名词或代词的品质与特征的,所以定中关系在评论观点抽取规则中不可或缺。从表3中看出,形容词一般用作评论观点的情感词,被其修饰的名词或用作名词的动词作为评论的观点词。同样,该类规则也需要考虑名词成分、形容词的并列结构,还有修饰形容词的副词成分。例如,表3给出的例句“生硬尴尬的表演”中“生硬”与“尴尬”为并列关系,所以能抽取出(表示,生硬)和(表演,尴尬)两组标签对;“表演不生动”可抽取出(表演,不生动)。步骤s4,评论标签类别标记和情感倾向性标记,分为关键词匹配打标和人工打标。其中,关键词匹配打标需要获取标签类别词典和情感词典,然后进行关键词匹配,主要流程参见图2,首先获取标签类别词典,包括如下步骤:1)影片专有名词替换。将评论标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”,从而实现评论标签词库中的部分词语的归类;即若评论标签词库中存在的“张三”、“李四”等演员名,但由于机器无法判别“张三”、“李四”为演员,所以通过将其与用户自定义词典中演员名列表进行匹配,则可将“张三”、“李四”标记为“演员”;导演名和影片名的标记也用相同的方法。2)词向量模型训练。对评论语料库中评论内容进行分词、去停用词后保存到一个文本中,每条评论语句保存为一行,词与词之间以空格隔开;利用word2vec(词向量)模型训练处理好的评论内容获得词向量模型;3)词聚类。将评论标签词库中的词语用训练好的词向量模型表示,再利用k-means(k均值)聚类算法将评论标签词库中的词语聚为k个类别;所述k个类别需要通过多次试验观察聚类结果确定;4)归纳评价维度,筛选类别词典。经人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观感”8个维度,并对每个类簇下的词进行筛选,保留相关的词组成标签类别词典;5)扩充标签类别词典。利用训练好的词向量模型获取标签类别词的相关词扩充标签类别词典,去掉词典中重复词,生成最终的标签类别词典。所述获取标签类别词的相关词是通过词向量模型计算词与词之间相似性,并设定阈值,当相似度大于该阈值,才认定词之间是相关相近的,同时对相关词的结果再进行人工筛选以确保标签类别词典的准确性。生成的标签类别词典,示例如表4所示:表4其次,获取情感词典。先收集开源的正负情感词典,主要有知网hownet词典与台湾大学开源的情感词典,对词典进行整理合并。其中,hownet知网词典中包含正负情感词语和正负评价词语,本发明只取其中的正负评价词语。然后统计所述观点情感词库中词频,保留大于设定阈值的所有词,然后人工删掉一些与电影评论情感无关的词语,形成具有电影特色的情感词典。最后,进行关键词匹配。关键词匹配是对于评论观点抽取中能提取出观点词与情感词的评论语句,将其观点词与标签类别词典进行匹配,将其情感词与情感词典进行匹配,若有两者都能匹配成功,则给该评论语句打上(标签类别,情感倾向性)标记。例如,对于“故事性不强”评论,评论观点提取后获得(故事性,不强)标记,经过标签类别与情感倾向性标记后获得(剧情,负向)标记。人工打标有两种情况:一是在评论观点抽取中未提取出观点词与情感词的句子,二是评论观点抽取中能提取出观点词与情感词,但不能满足关键词匹配打标的句子,针对这种情况进行人工标签类别标记与情感倾向性标记。步骤s5,生成评论观点情感分析模型,其由评论标签分类模型和标签情感分类模型组成,两个分类模型除了类别标签不一样,整个数据处理与使用分类算法都是相同的流程。分类模型数据集有两类:一是关键词匹配打标的数据集,二是人工打标的数据集,分别用这两类数据进行训练生成2个评论标签分类模型以及2个标签情感分类模型。为了提升情感分析的准确率,将2个评论标签分类模型加权融合生成新的评论标签分类模型,将2个标签情感分类模型加权融合生成新的标签情感分类模型,参考图3和图4。本实施例中,关键词打标数据生成的模型与人工打标数据生成的模型权重分别为0.4与0.6。评论观点情感分析概率计算公式如下:pi=0.4*p1i+0.6*p2i其中,pi表示评论语料库中某评论内容为i类别的概率,p1i、p2i分别表示关键词打标数据生成的模型得到的概率值和人工打标数据生成的模型得到的概率值。对于评论标签分类模型,i取值为0-7分别表示“导演,摄影,剧情,演员,情感,视听,题材”这8个类别。对于标签情感分类模型,i取值有0和1,1表示正向情感,0表示负向情感。上述的分类模型的构建过程,参见图5,涉及以下步骤:首先,进行数据平衡。分类数据各类样本可能出现不均衡的现象,这对分类的整体准确性有很大的影响。本发明采用上采样(oversampling)策略,即将小数据类别复制多份。其次,进行数据集划分。打乱数据集按8:2比例划分为训练集与测试集。然后,进行特征提取。对训练集语料进行分词,去除停用词,然后采用的tf-idf算法(词频-逆文档频率)提取文本特征,再计算各特征的卡方值(chi2或χ2),通过设置阈值k(k为整数),保留卡方值排列前k个特征实现特征降维。最后,将数据导入随机森林分类模型,进行模型训练、保存与评估。步骤s6,评论情感标签自动生成。在训练好评论观点情感分析模型后,可进行新影评的自动打标,具体的情感预测过程,参考图6。首先做评论观点抽取,抽取(观点词,情感词),若可以获取(观点词,情感词),则进行关键词匹配,包括标签类别匹配和情感词匹配,如果两者都能匹配成功,就直接输出结果。否则,直接调用评论标签分类模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值(t1和t2),若标签类别预测概率p1大于t1且标签情感预测概率p2大于t2,则输出(评论标签类别标记、情感倾向性标记)。以上实施例仅供说明本发明之用,而非对本发明的限制,有关

技术领域:

的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。当前第1页1 2 3 

技术特征:

1.一种电影评论观点情感倾向性分析方法,其特征在于,包括:

步骤s1,从影评网站爬取各类别的多部电影的影片描述信息和评论信息;

步骤s2,对采集的影评描述信息和评论信息进行数据预处理;

步骤s3,制定多条评论观点提取规则,利用评论观点提取规则从评论信息的评论内容的各个评论语句中获得观点词与情感词,然后将所有观点词和情感词分别保存为评论标签词库与观点情感词库;

步骤s4,通过关键词匹配打标或人工打标,对各个评论语句进行评论标签类别标记和情感倾向性标记;

步骤s5,生成由评论标签分类模型和标签情感分类模型组成的评论观点情感分析模型;

步骤s6,针对目标影评,利用评论观点情感分析模型自动生成评论标签类别标记和情感倾向性标记。

2.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤s1中,电影的分类包括:爱情、动画、动作、科幻、恐怖、喜剧和悬疑;

所述影片描述信息包括影片名、导演名、主演名、类型和总评分;

所述评论信息包括:评论者昵称、评论有用数、评论时间、评论内容和评分。

3.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述的数据预处理包括:

将采集的所有评论信息整合形成一个评论语料库;

去除评论语料库中重复的数据;

删除评论语料库中评论内容缺失的数据;

将评论语料库中繁体中文全部转化为简体中文;

从采集的各影片描述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记。

4.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤s3包括:

根据依存句法结构、词语间的词性和评论观点中观点词与情感词的表达结构来构建多条评论观点提取规则;

对评论语料库中评论内容进行分句、分词、词性标注和依存句法分析,获得各个评论语句,查看评论语句是否匹配某条评论观点抽取规则,匹配则获取观点词和情感词,

将获取的所有观点词和情感词分别保存为评论标签词库与观点情感词库。

5.根据权利要求4所述的电影评论观点情感倾向性分析方法,其特征在于,所述的依存句法结构包括:主谓结构、动宾结构、定中结构、状中结构、动补结构和并列结构;

所述的词语间的词性包括:主语成分、宾语或形似宾语成分、定语成分以及名词成分;形似宾语指间接或类似宾语的结构;

所述的观点词与情感词的表达结构,指:主语成分为观点词,宾语或形似宾语成分为情感词;定语成分为情感词,被其修饰的名词成分为观点词。

6.根据权利要求3所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤s4包括:

获取标签类别词典和情感词典;

对于所述步骤s3中能提取出观点词和情感词的评论语句进行关键词匹配打标:将获取的观点词与标签类别词典进行匹配,将获取的情感词与情感词典进行匹配,若两者均能匹配成功,给该评论语句打上标签类别标记以及情感倾向性标记;否则,进行人工标签类别标记与情感倾向性标记;

对于所述步骤s3中未提取出观点词和情感词的评论语句,进行人工标签类别标记与情感倾向性标记。

7.根据权利要求6所述的电影评论观点情感倾向性分析方法,其特征在于,所述的获取标签类别词典,包括:

将评论标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”;

通过词向量模型训练各评论语句获得训练好的词向量模型;

利用评论标签词库的词语用训练好的词向量模型表示,再利用k均值聚类算法将评论标签词库中的词语聚为k个类别;

人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观感”8个维度,并对每个类簇下的词进行筛选,保留相关的词组成初步的标签类别词典;

利用训练好的词向量模型获取初步的标签类别词典中标签类别词的相关词扩充标签类别词典,去掉词典中重复词,生成最终的标签类别词典;

所述的获取情感词典指:先收集开源的正负情感词典进行整理合并,然后统计所述观点情感词库中词频,保留大于设定阈值的所有词,然后人工删掉与电影评论情感无关的词语,形成情感词典。

8.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤s5包括:

利用关键词匹配打标的数据集以及人工打标的数据集,分别训练生成两个初步的评论标签分类模型以及两个初步的标签情感分类模型;

将两个初步的评论标签分类模型加权融合生成最终的评论标签分类模型;

将两个初步的标签情感分类模型加权融合生成最终的标签情感分类模型。

9.根据权利要求8所述的电影评论观点情感倾向性分析方法,其特征在于,所述的初步的评论标签分类模型或初步的标签情感分类模型的生成步骤,包括:

对关键词匹配打标的数据集以及人工打标的数据集采用上采样策略,进行数据平衡;

将数据平衡后的关键词匹配打标的数据集以及人工打标的数据集按预设比例划分为训练集和测试集;

对训练集中语料进行分词,去除停用词,然后采用tf-idf算法提取文本特征,再计算各特征的卡方值进行特征降维;

将数据导入随机森林分类模型,进行模型训练、保存与评估。

10.根据权利要求6所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤s6,包括:

抽取观点词和情感词,若可以获取,则进行关键词匹配,包括标签类别匹配和情感词匹配,如果两者都能匹配成功,就直接输出标签类别标记与情感倾向性标记;否则,直接调用评论标签分类模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值t1和t2,若标签类别预测概率p1大于t1且标签情感预测概率p2大于t2,则输出标签类别标记与情感倾向性标记。

技术总结

本发明公开了一种电影评论观点情感倾向性分析方法,包括:从影评网站爬取各类别的多部电影的影片描述信息和评论信息;对采集的影评描述信息和评论信息进行数据预处理;制定多条评论观点提取规则,利用评论观点提取规则从评论信息的评论内容的各个评论语句中获得观点词与情感词,然后将所有观点词和情感词分别保存为评论标签词库与观点情感词库;通过关键词匹配打标或人工打标,对各个评论语句进行评论标签类别标记和情感倾向性标记;生成由评论标签分类模型和标签情感分类模型组成的评论观点情感分析模型;针对目标影评,利用评论观点情感分析模型自动生成评论标签类别标记和情感倾向性标记。能全面准确地反映出用户对影片的情感表达。

技术研发人员:许青青;谢赟;韩欣

受保护的技术使用者:上海德拓信息技术股份有限公司

技术研发日:.11.07

技术公布日:.02.21

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。