1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > split函数python统计英文单词_统计一篇英文文章单词个数 取出出现频次前10的单词(Py

split函数python统计英文单词_统计一篇英文文章单词个数 取出出现频次前10的单词(Py

时间:2022-09-05 16:33:34

相关推荐

split函数python统计英文单词_统计一篇英文文章单词个数 取出出现频次前10的单词(Py

题目: 用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数。

常规解法

怎么判定单词?

1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处理不便,全部替换成"")

2 正则分割

3 遍历字符串,取每个word

4 正则匹配

怎么统计个数?

将wordlist的word和word的个数放入dict,排序

import re

with open('1.txt', 'r') as f:

word_dict = {} # 用于统计 word:个数

word_list = [] # 用于存放所有单词

for line in fd.readlines():

for word in line.strip().split(" "):

word_list.append(re.sub(r"[^a-z]+", "", word.lower()))

word_sets = list(set(word_list)) # 确保唯一

word_dict = {word: word_list.count(word) for word in word_sets if word}

result = sorted(word_dict.items(), key=lambda d: d[1], reverse=True)[:10]

print(result)

利用collections模块

import re

from collections import Counter

with open('1.txt', 'r', ) as f:

words = f.read() # 将文件的内容全部读取成一个字符串

count = Counter(re.split(r"\W+", words)) # 以单词为分隔

result = count.most_common(10) # 统计最常使用的前10个

print(result)

split函数python统计英文单词_统计一篇英文文章单词个数 取出出现频次前10的单词(Python实现)...

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。