1200字范文 > 机器学习案例实战：Python文本数据分析新闻分类任务

机器学习案例实战：Python文本数据分析新闻分类任务

时间：2023-05-14 11:56:31

原创文章,如需转载请保留出处本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记

一. 文本分析与关键词提取

1.1 文本数据

1.2 停用词

语料中大量出现没啥大用留着过年吗

1.3 Tf-idf：关键词提取

《中国的蜜蜂养殖》：进行词频（Term frequency，缩写TF）统计出现次数最多的词：“的”、“是”、“在”…这类最常用的词（停用词）“中国”、“蜜蜂”、“养殖” 这三个词出现的次数一样多，重要性是一样的？“中国”是很常见的词，相对而言，“蜜蜂”和“养殖”不那么常见

1.4 逆文档频率（Inverse Document Frequency，IDF）

如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词词频(TF) = 某个词在文章中的出现次数 / 该文词的个数逆文档频率(IDF) = log(语料库的文档总数 / 包括该词的文档数 + 1)

1.5 Tf-idf：关键词提取计算

TF-IDF = 词频(TF) * 逆文档频率(IDF)

《中国的蜜蜂养殖》：假定该文长度为1000个词，“中国”、“蜜蜂”、“养殖”各出现20次，则这三个词的“词频”(TF)都是0.02搜索Google发现，包含“的”字的网页共有250亿张，假定这就是中文网页总数。包含“中国”的网页共有62.3亿张，包含“蜜蜂”的网页共有0.484亿张，包含“养殖”的网页共有0.973亿张

二. 相似度计算

2.1 相识度

句子A：我喜欢看电视，不喜欢看电影

句子B：我不喜欢看电视，也不喜欢看电影

分词

句子A：我 / 喜欢 / 看 / 电视，不 / 喜欢 / 看 / 电影

句子B：我 / 不 / 喜欢 / 看 / 电视，也 / 不 / 喜欢 / 看 / 电影

语料库：我，喜欢，看，电视，电影，不，也

词频：

句子A：我1，喜欢2，看2，电视1，电影1，不1，也0

句子B：我1，喜欢2，看2，电视1，电影1，不2，也1、

词频向量

句子A：[1，2，2，1，1，1，0]

句子B：[1，2，2，1，1，2，1]

余弦相似度：

三. 新闻数据与任务简介

import pandas as pdimport numpy as np#结吧分词import jiebadf_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')#dropna:去掉缺失值df_news = df_news.dropna()df_news.head()

df_news.shape

(5000, 4)

#分词：使用结吧分词器#先将content转换成list格式content = df_news.content.values.tolist()print (content[1000])

阿里巴巴集团昨日宣布，将在集团管理层面设立首席数据官岗位（ＣｈｉｅｆＤａｔａＯｆｆｉｃｅｒ），阿里巴巴Ｂ２Ｂ公司ＣＥＯ陆兆禧将会出任上述职务，向集团ＣＥＯ马云直接汇报。＞菹ぃ和６月初的首席风险官职务任命相同，首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判，推进“ｏｎｅｃｏｍｐａｎｙ”目标后，在集团决策层面新增的管理岗位。０⒗锛团昨日表示，“变成一家真正意义上的数据公司”已是战略共识。记者刘夏

#利用结吧分词content_S = []#line:代表content中每一条for line in content:current_segment = jieba.lcut(line)#大于1：代表确实能切分if len(current_segment) > 1 and current_segment != '\r\n':content_S.append(current_segment)

content_S[1000]

['阿里巴巴','集团','昨日','宣布','，','将','在','集团','管理','层面','设立','首席','数据','官','岗位','（','Ｃ','ｈ','ｉ','ｅ','ｆ','\u3000','Ｄ','ａ','ｔ','ａ','\u3000','Ｏ','ｆ','ｆ','ｉ','ｃ','ｅ','ｒ','）','，','阿里巴巴','Ｂ','２','Ｂ','公司','Ｃ','Ｅ','Ｏ','陆兆禧','将','会','出任','上述','职务','，','向','集团','Ｃ','Ｅ','Ｏ','马云','直接','汇报','。','＞','菹','ぃ','和','６','月初','的','首席','风险','官','职务','任命','相同','，','首席','数据','官亦为','阿里巴巴','集团','在','完成','与','雅虎','股权','谈判','，','推进','“','ｏ','ｎ','ｅ','\u3000','ｃ','ｏ','ｍ','ｐ','ａ','ｎ','ｙ','”','目标','后','，','在','集团','决策','层面','新增','的','管理','岗位','。','０','⒗','锛','团','昨日','表示','，','“','变成','一家','真正','意义','上','的','数据','公司','”','已','是','战略','共识','。','记者','刘夏']

df_content = pd.DataFrame({'content_S':content_S})df_content.head()

content_S

0 [经销商, , 电话, , 试驾, ／, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, …

1 [呼叫, 热线, , ４, ０, ０, ８, －, １, ０, ０, －, ３, ０, ０…

2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 在, 二月, 曾经, 公布, 了, 最新, 的, Ｍ, Ｉ…

3 [清仓, 大, 甩卖, ！, 一汽, 夏利, Ｎ, ５, 、, 威志, Ｖ, ２, 低至, …

4 [在, 今年, ３, 月, 的, 日内瓦, 车展, 上, ，, 我们, 见到, 了, 高尔夫…

四.TF-IDF关键词提取

stopwords = pd.read_csv('stopwords.txt',index_col = False, sep = '\t',quoting = 3,names = ['stopword'], encoding = 'utf-8')stopwords.head()

stopword

0 !

1 "

2 #

3 $

4 %

def drop_stopwords(contents,stopwords):contents_clean = []all_words = []for line in contents:line_clean = []for word in line:if word in stopwords:continueline_clean.append(word)all_words.append(str(word))contents_clean.append(line_clean)return contents_clean,all_wordscontents = df_content.content_S.values.tolist()stopwords = stopwords.stopword.values.tolist()contents_clean,all_words = drop_stopwords(contents,stopwords)

df_content = pd.DataFrame({'contents_clean':contents_clean})df_content.head()

contents_clean

0 [经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, …

1 [呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,…

2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念…

3 [清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, …

4 [日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,…

df_all_words=pd.DataFrame({'all_words':all_words})df_all_words.head()

all_words

0 经销商

1 电话

2 试驾

3 订车

4 Ｕ

words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg({'count':np.size})words_count = words_count.reset_index().sort_values(by=['count'],ascending=False)words_count.head()

all_words count

4077 中 5199

4209 中国 3115

88255 说 3055

104747 Ｓ 2646

1373 万 2390

from wordcloud import WordCloudimport matplotlib.pyplot as plt%matplotlib inlineimport matplotlibmatplotlib.rcParams['figure.figsize'] = (10.0, 5.0)wordcloud = WordCloud(font_path='./data/simhei.ttf',background_color='white',max_font_size=80)word_frequence = {x[0]:x[1] for x in words_count.head(100).values}wordcloud = wordcloud.fit_words(word_frequence)plt.imshow(wordcloud)

#提取关键字import jieba.analyseindex = 1000print(df_news['content'][index])content_S_str = ''.join(content_S[index])print(" ".join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

阿里巴巴集团首席岗位数据

五.LDA建模

Gensim是一个用于从文档中自动提取语义主题的Python库

from gensim import corpora, models, similaritiesimport gensim

#做映射，相当于词袋dictionary = corpora.Dictionary(contents_clean)corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)

#一号分类结果print(lda.print_topic(1, topn=5))

0.011*“男人” + 0.010*“中” + 0.005*“说” + 0.004*“女人” + 0.003*“於”

for topic in lda.print_topics(num_topics=20, num_words=5):print(topic[1])

0.005*“纹身” + 0.004*“中” + 0.004*“台湾” + 0.004*“台北” + 0.003*“女儿”

0.011*“男人” + 0.010*“中” + 0.005*“说” + 0.004*“女人” + 0.003*“於”

0.009*“教育” + 0.007*“学生” + 0.006*“学校” + 0.006*“工作” + 0.006*“发展”

0.009*“比赛” + 0.007*“该剧” + 0.005*“中” + 0.005*“女人” + 0.005*“节目”

0.005*“赛区” + 0.005*“说” + 0.004*“中” + 0.004*“老公” + 0.004*“工作”

0.005*“中” + 0.005*“说” + 0.004*“万” + 0.003*“Ｄ” + 0.003*“比赛”

0.007*“中” + 0.006*“吃” + 0.006*“食物” + 0.005*“含有” + 0.004*“维生素”

0.009*“节目” + 0.007*“中” + 0.005*“Ｓ” + 0.005*“Ｖ” + 0.005*“表演”

0.008*“中” + 0.005*“比赛” + 0.005*“球队” + 0.004*“说” + 0.004*“中国”

0.012*“中” + 0.006*“卫视” + 0.004*“说” + 0.003*“中国” + 0.003*“Ｔ”

0.026*“ａ” + 0.026*“ｅ” + 0.020*“ｉ” + 0.019*“ｏ” + 0.018*“ｎ”

0.015*“中国” + 0.005*“发展” + 0.005*“中” + 0.005*“美国” + 0.004*“文化”

0.007*“中国” + 0.007*“中” + 0.007*“观众” + 0.006*“说” + 0.004*“比赛”

0.004*“节目” + 0.003*“芒果” + 0.003*“单身” + 0.003*“男人” + 0.003*“万”

0.009*“说” + 0.005*“恋情” + 0.005*“分手” + 0.005*“中” + 0.004*“离婚”

0.009*“撒” + 0.005*“高考” + 0.004*“乳房” + 0.004*“孩子” + 0.003*“万”

0.007*“号” + 0.006*“万” + 0.004*“转” + 0.003*“学校” + 0.003*“公司”

0.010*“孩子” + 0.007*“说” + 0.004*“儿子” + 0.004*“中” + 0.003*“Ｍ”

0.017*“电影” + 0.012*“导演” + 0.008*“影片” + 0.007*“中” + 0.007*“观众”

0.006*“女人” + 0.006*“女性” + 0.003*“中” + 0.003*“快感” + 0.002*“Ｗ”

五.基于贝叶斯算法进行新闻分类

df_train = pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})df_train.tail()

contents_clean label

4995 [天气, 炎热, 补水, 变得, 美国, 跑步, 世界, 杂志, 报道, 喝水, 身体, 补… 时尚

4996 [不想, 说, 话, 刺激, 说, 做, 只能, 走, 离开, 伤心地, 想起, 一句, 话… 时尚

4997 [岁, 刘晓庆, 最新, 嫩照, Ｏ, 衷, 诘, 牧跸, 庆, 看不出, 岁, 秒杀, 刘… 时尚

4998 [导语, 做, 爸爸, 一种, 幸福, 无论是, 领养, 亲生, 更何况, 影视剧, 中, … 时尚

4999 [全球, 最美, 女人, 合成图, 国, 整形外科, 教授, 李承哲, 国际, 学术, 杂志… 时尚

df_train.label.unique()

array([‘汽车’, ‘财经’, ‘科技’, ‘健康’, ‘体育’, ‘教育’, ‘文化’, ‘军事’, ‘娱乐’, ‘时尚’],

dtype=object)

label_mapping = {"汽车":1,"财经":2,"科技":3,"健康":4,"体育":5,"教育":6,"文化":7,"军事":8,"娱乐":9,"时尚":0}df_train['label'] = df_train['label'].map(label_mapping)df_train.head()

contents_clean label

0 [经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, … 1

1 [呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,… 1

2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念… 1

3 [清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, … 1

4 [日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,…

from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values, random_state=1)

x_train[0][1]

‘上海’

words = []for line_index in range(len(x_train)):try:words.append(' '.join(x_train[line_index]))except:print (line_index,word_index)words[0]

‘中新网上海日电于俊父亲节网络吃一顿电影快餐微电影爸对不起我爱你定于本月父亲节当天各大视频网站首映葜谱鞣剑保慈障蚣钦呓樯埽 ⒌ 缬埃 ǎ 停椋悖颍铩妫椋恚称微型电影新媒体平台播放状态短时休闲状态观看完整策划系统制作体系支持显示较完整故事情节电影微超短放映微周期制作天数周微规模投资人民币几千数万元每部内容融合幽默搞怪时尚潮流人文言情公益教育商业定制主题单独成篇系列成剧唇开播微电影爸对不起我爱你讲述一对父子观念缺少沟通导致关系父亲传统固执钟情传统生活方式儿子新派音乐达习惯晚出早生活性格张扬叛逆两种截然不同生活方式理念差异一场父子间拉开序幕子失手打破父亲心爱物品父亲赶出家门剧情演绎父亲节妹妹哥哥化解父亲这场矛盾映逋坏嚼斫狻 ⒍ 粤 ⒌ 桨容争执退让传统尴尬父子尴尬情男人表达心中那份感恩一杯滤挂咖啡父亲节变得温馨镁缬缮虾Ｎ逄煳幕传播迪欧咖啡联合出品出品人希望观摩扪心自问父亲节父亲记得父亲生日哪一天父亲爱喝跨出家门那一刻感觉一颗颤动心操劳天下儿女父亲节大声喊出父亲家人爱完’

print (len(words))

3750

from sklearn.feature_extraction.text import CountVectorizertexts = ["dog cat fish","dog cat cat","fish bird","bird"]cv = CountVectorizer()cv_fit = cv.fit_transform(texts)print(cv.get_feature_names())print(cv_fit.toarray())print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘dog’, ‘fish’]

[[0 1 1 1]

[0 2 1 0]

[1 0 0 1]

[1 0 0 0]]

[2 3 2 2]

from sklearn.feature_extraction.text import CountVectorizertexts = ["dog cat fish","dog cat cat","fish bird","bird"]cv = CountVectorizer(ngram_range=(1,4))cv_fit = cv.fit_transform(texts)print(cv.get_feature_names())print(cv_fit.toarray())print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘cat cat’, ‘cat fish’, ‘dog’, ‘dog cat’, ‘dog cat cat’, ‘dog cat fish’, ‘fish’, ‘fish bird’]

[[0 1 0 1 1 1 0 1 1 0]

[0 2 1 0 1 1 1 0 0 0]

[1 0 0 0 0 0 0 0 1 1]

[1 0 0 0 0 0 0 0 0 0]]

[2 3 1 1 2 2 1 1 2 1]

from sklearn.feature_extraction.text import CountVectorizervec = CountVectorizer(analyzer='word', max_features=4000,lowercase=False)vec.fit(words)

CountVectorizer(analyzer=‘word’, binary=False, decode_error=‘strict’,

dtype=<class ‘numpy.int64’>, encoding=‘utf-8’, input=‘content’,

lowercase=False, max_df=1.0, max_features=4000, min_df=1,

ngram_range=(1, 1), preprocessor=None, stop_words=None,

strip_accents=None, token_pattern=’(?u)\b\w\w+\b’,

tokenizer=None, vocabulary=None)

from sklearn.naive_bayes import MultinomialNBclassifier = MultinomialNB()classifier.fit(vec.transform(words),y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

test_words = []for line_index in range(len(x_test)):try:test_words.append(' '.join(x_test[line_index]))except:print (line_index,word_index)test_words[0]

‘国家公务员考试申论应用文类试题实质一道集概括分析提出解决问题一体综合性试题说一道客观凝练申发论述文章题目分析历年国考申论真题公文类试题类型多样包括公文类事务性文书类题材从题干作答材料内容整合分析无需太创造性发挥纵观历年申论真题作答应用文类试题文种格式作出特别重在内容考查行文格式考生平常心面对应用文类试题准确把握作答领会内在含义把握题材主旨材料结构轻松应对应用文类试题Ｒ弧 ⒆ 钒盐展文写作原则Ｔ材料中来应用文类试题材料总体把握客观考生材料中来材料中把握材料准确理解题材主旨Ｔ政府角度作答应用文类试题更应注重政府角度观点政府角度出发原则表述观点提出解决之策考生作答站政府人员角度看待提出解决问题Ｔ文体结构形式考查重点文体结构大部分评分关键点解答方法薄 ⒆ ス丶词明方向作答题目题干作答作答方向作答角度关键向导考生仔细阅读题干作答抓住关键词作答方向相关要点整理作答思路年国考地市级真题为例潦惺姓府宣传推进近海水域污染整治工作请给定资料市政府工作人员身份草拟一份宣传纲要Ｒ求保对宣传内容要点提纲挈领陈述玻体现政府精神全市各界关心支持污染整治工作通俗易懂超过字肮丶词近海水域污染整治工作市政府工作人员身份宣传纲要提纲挈领陈述体现政府精神全市各界关心支持污染整治工作通俗易懂提示归结作答要点包括污染情况原因解决对策作答思路情况原因对策意义逻辑顺序安排文章结构病 ⒋ 缶殖龇 ⅲ 明结构解答应用文类试题考生材料整体出发大局出发高屋建瓴把握材料主题思想事件起因解决对策阅读文章构建文章结构直至快速解答场 ⒗ 硭乘悸罚明逻辑应用文类试题严密逻辑思维情况原因对策意义考生作答先弄清楚解答思路统筹安排脉络清晰逻辑表达内容表述础把握明详略考生仔细阅读分析揣摩应用文类试题内容答题时要详略得当主次分明安排内容增加文章层次感阅卷老师阅卷时能明白清晰一目了然玻埃保蹦旯考考试申论试卷分为省级地市级两套试卷能力大有省级申论试题考生宏观角度看注重深度广度考生深谋远虑地市级试题考生微观视角观察侧重考查解决能力考生贯彻执行作答区别对待’

classifier.score(vec.transform(test_words),y_test)

0.804

from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer(analyzer='word',max_features=4000,lowercase=False)vectorizer.fit(words)

TfidfVectorizer(analyzer=‘word’, binary=False, decode_error=‘strict’,

dtype=<class ‘numpy.float64’>, encoding=‘utf-8’,

input=‘content’, lowercase=False, max_df=1.0, max_features=4000,

min_df=1, ngram_range=(1, 1), norm=‘l2’, preprocessor=None,

smooth_idf=True, stop_words=None, strip_accents=None,

sublinear_tf=False, token_pattern=’(?u)\b\w\w+\b’,

tokenizer=None, use_idf=True, vocabulary=None)

from sklearn.naive_bayes import MultinomialNBclassifier = MultinomialNB()classifier.fit(vectorizer.transform(words),y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

classifier.score(vectorizer.transform(test_words),y_test)

0.8152

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。