1200字范文 > python进行数据分析简书_《利用python进行数据分析》读书笔记1

python进行数据分析简书_《利用python进行数据分析》读书笔记1

时间：2022-12-14 22:40:05

读取json内容：

import json

path='路径\文件名.txt'

records=[json.loads(line) for line in open(path)]

#records为由字典组成的列表。每个字典为一个实例

建立只有‘tz’时区字段的列表。因为不是每个字典实例都有tz字段，所以要加上if 'tz' in rec。否则会报错。

time_zone=[rec['tz'] for rec in records if 'tz' in rec]

统计每种时区的出现次数：

方法一：

先统计次数，生成{时区1：次数，时区2：次数....}形式的字典。

再对字典进行排序。

统计次数方法(1)：

from collections import defaultdict #次数统计函数

def get_counts(sequences)

counts=defaultdict(int) #初始化次数统计字典，将其初始值设为0

for x in sequences:

counts[x]+=1

return counts

统计次数方法(2)：

from collections import defaultdict

def get_count2(sequence):

counts=defaultdict(int)

for x in sequence:

counts[x]+=1

return counts

排序

def top_count(counts,n=10) #字典排序函数，两个参数里一个是计数字典，一个是排序取前几。默认为前10。

value_key_pairs=[(count,tz) for tz, count in counts.items()]

value_key_pairs.sort()

return value_key_pairs[-10:]

counts=get_counts(time_zone)

top10=top_count(counts)

其中counts.items()是将字典中的键值对以元组的形式放进列表里。

例：counts：

{u'America/Montreal': 9, u'America/Anchorage': 5, u'Asia/Seoul': 5}

counts.items():

[(u'America/Montreal', 9), (u'America/Anchorage', 5), (u'Asia/Seoul', 5)]

而这句：value_key_pairs=[(count,tz) for tz, count in counts.items()]则是对返回的键，值对元组的位置做了调换。

例：[(9, u'America/Montreal'), (5, u'America/Anchorage'), (5, u'Asia/Seoul')]

value_key_pairs.sort()中 list.sort()方法只能用于列表，是对原列表进行排序。默认升序。需要降序则value_key_pairs.sort(reverse=False)

方法二：使用Counter类

from collections import Counter

counts=Counter(time_zone)

top10=counts.most_common(10)

Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型，以字典的键值对形式存储，其中元素作为key，其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。

详细参考：/article/85542.htm

方法三：用pandas计数

import pandas as pd

import numpy as np

frame=pd.DataFrame(records)

tz_counts=frame['tz'].value_counts() #计数并且排序，默认降序。tz_counts如下：

image.png

注意里面有空值

clear_tz=frame['tz'].fillna('Missing') #替换掉frame里缺失tz字段的NA

clear_tz[clear_tz=='']='Unknown #通过布尔型数组索引替换空字符串

tz_counts=clear_tz.value_counts()

此时的tz_counts如下。注意空字符串变成了unknow。以及增加了missing计数。

image.png

使用前十的数据，利用plot方法生成一张水平条形图。

tz_counts[:10].plot(kind='barh',rot=0)

image.png

总结：

1.往字典里存数据需要先初始化字典。可使用defaultdict函数：

from collections import defaultdict

counts=defaultdict(int) #初始化次数统计字典，将其初始值设为0

2.清洗数据，有的数据没有某个字段，一是要替换掉这些缺失值，可用fillna方法替换。二是要注意有没有空字符串，这种数据可通过布尔型数组索引来替换掉。

3.对某个字段的值的出现次数进行统计，可使用三种方法

(1)新建一个字典，用以统计每个值的出现次数。再将该字典转换为列表，对列表进行排序。

(2)使用counter类进行次数统计并排序。

(3)先将json转换为DataFrame对象，再对其tz字段使用pandas的value_counts()方法进行次数统计并排序。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

python进行数据分析 简书_《利用python进行数据分析》读书笔记1

python进行数据分析简书_《利用python进行数据分析》读书笔记1