1200字范文 > 《利用python进行数据分析》读书笔记--第十章时间序列（二）

《利用python进行数据分析》读书笔记--第十章时间序列（二）

时间：2019-03-07 22:47:53

5、时期及其算数运算

时期（period）表示的是时间区间，比如数日、数月、数季、数年等。Period类所表示的就是这种数据类型，其构造函数需要用到一个字符串或整数，以及频率。

>>>

-1

array([360, 361, 362, 363, 364, 365], dtype=int64)

2000-01 -0.504031

2000-02 1.345024

2000-03 0.074367

2000-04 -1.152187

2000-05 -0.460272

2000-06 0.486135

Freq: M

array([126, 129, 132], dtype=int64)

[Finished in 1.4s]

时期的频率转换

Period和PeriodIndex对象都可以通过其asfreq方法转换为别的频率。

>>>

-01

-12

0.001601

0.285760

-0.458762

0.076204

Freq: A-DEC

-01 0.001601

-01 0.285760

-01 -0.458762

-01 0.076204

Freq: M

-12-29 0.001601

-12-31 0.285760

-12-31 -0.458762

-12-31 0.076204

Freq: B

[Finished in 1.4s]

Period频率转换示意图：

按季度计算的时期频率

季度型数据在会计、金融等领域中很常见。许多季度型数据都会涉及“财年末”的概念，通常是一年12个月中某月的最后一个日历日或工作日。就这一点来说，“Q4”根据财年末的会有不同含义。pandas支持12种可能的季度频率，即Q-JAN、Q-DEC。

下面是一个示意图，很直观：

将Timestamp转换为Period

通过to_period方法，可以将由时间戳索引的Series和DataFrame对象转换为以时期为索引的对象。

通过数组创建PeriodIndex

固定频率的数据集通常会将时间信息分开存放在多个列中。例如下面的这个宏观经济数据集中，年度和季度就分别存放在不同的列中。

6、重采样及频率转换

重采样（resampling）指的是将时间序列从一个频率转换到另一个频率的过程。将高频率数据聚合到低频率成为降采样（downsampling），而将低频率数据转换到高频率成为升采样（uosampling）。并不是所有的重采样都能被划分到这两类中，比如将W-WED转换为W-FRI既不是降采样也不是升采样。

pandas中的resample方法，它是各种频率转换工作的主力函数。

下面是resample的参数：

降采样

将数据的频率降低称为降采样，也就是将数据进行聚合。一个数据点只能属于一个聚合时间段，所有时间段的并集组成整个时间帧。在进行降采样时，应该考虑如下：

各区间那便是闭合的如何标记各个聚合面元，用区间的开头还是结尾

下面是个下采样的一个直观展示：

a、OHLC重采样

金融领域中有一种无所不在的时间序列聚合方式，及计算四个面元值：open、close、hign、close。传入how = ‘ohlc’即可得到一个含有这四种聚合值的DataFrame。这个过程很高效！（顺便：真的很实用啊！）只需一次扫描即可计算出结果：

>>>

open high low close

2000-01-01 00:00:00 1.239881 1.239881 1.239881 1.239881

2000-01-01 00:05:00 0.035189 0.371294 -1.764463 -1.764463

2000-01-01 00:10:00 -0.959353 1.441732 -0.959353 0.019104

2000-01-01 00:15:00 1.169352 1.169352 1.169352 1.169352

[Finished in 0.7s]

b、通过groupby进行重采样

另一种方法是使用pandas的groupby功能。例如，你打算根据月份或者周几进行分组，只需传入一个能够访问时间序列的索引上的这些字段的函数即可：

升采样和差值

将数据从低频率转换到高频率是，就不需要聚合了。看一下下面的例子：

通过日期进行重采样

对那些使用时期索引的数据进行重采样是一件非常简单的事情。

#-*- coding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport datetime as dtfrom pandas import Series,DataFramefrom datetime import datetimefrom dateutil.parser import parseimport timefrom pandas.tseries.offsets import Hour,Minute,Day,MonthEndimport pytzframe = DataFrame(np.random.randn(24,4),index = pd.period_range('1-2000','12-2001',freq = 'M'),columns = ['Colorado','Texas','New York','Ohio'])print frame,'\n'annual_frame = frame.resample('A-DEC',how = 'mean')print annual_frame,'\n'#升采样要稍微麻烦些，因为你必须决定在新的频率中各区间的哪端用于放置原来的值，就像asfreq方法一样，convention默认为'end',可设置为'start'#Q-DEC：季度型（每年以12月结束）print annual_frame.resample('Q-DEC',fill_method = 'ffill')print annual_frame.resample('Q-DEC',fill_method = 'ffill',convention = 'start'),'\n'#由于时期指的是时间区间，所以升采样和降采样的规则就比较严格#在降采样中，目标频率必须是原频率的子时期#在升采样中，目标频率必须是原频率的超时期#如果不满足这些条件，就会引发异常，主要影响的是按季、年、周计算的频率。#例如，由Q-MAR定义的时间区间只能升采样为A-MAR、A-JUN等print annual_frame.resample('Q-MAR',fill_method = 'ffill')#实话说，上面的几个例子需要在实战中去理解>>>ColoradoTexas New YorkOhio2000-01 0.531119 0.514660 -1.051243 1.9008722000-02 0.937613 -0.301391 1.034113 -0.0155242000-03 0.368118 -1.236412 0.455100 1.6488632000-04 -0.728873 0.250044 1.523354 0.2306132000-05 -0.188811 1.418581 -1.285510 1.0519152000-06 2.059990 -0.703682 1.293203 -0.7925342000-07 0.911168 -0.362981 -1.873637 1.0333832000-08 0.817223 1.512153 -0.365323 -1.3250692000-09 -0.087511 0.238656 -2.078260 1.4155112000-10 0.185765 0.223584 1.242821 -0.6548312000-11 -0.725814 0.723152 -0.250924 -2.1105322000-12 -0.153382 1.535816 1.455040 0.7003092001-01 -0.146100 -1.036274 -0.954112 -0.2124342001-02 0.283262 1.868316 2.128798 -0.8579802001-03 -0.793054 -1.858595 -1.243900 0.9520012001-04 0.878166 -0.846098 1.161008 1.0600232001-05 0.071310 -0.705115 0.489365 0.1876802001-06 -0.622563 -1.070024 -1.044217 0.1197442001-07 1.086923 -1.142216 1.015157 0.8046852001-08 -2.642336 -0.758853 -0.248052 -0.0249192001-09 -0.335489 -1.354160 0.171963 -0.9938192001-10 -0.715587 -0.833531 0.797166 0.1277542001-11 -0.265285 -2.005336 1.271591 0.0162982001-12 0.971353 -0.150070 -1.170043 1.067736 ColoradoTexas New YorkOhio2000 0.327217 0.317682 0.008228 0.2569152001 -0.185783 -0.824330 0.197894 0.187231 ColoradoTexas New YorkOhio2000Q4 0.327217 0.317682 0.008228 0.2569152001Q1 0.327217 0.317682 0.008228 0.2569152001Q2 0.327217 0.317682 0.008228 0.2569152001Q3 0.327217 0.317682 0.008228 0.2569152001Q4 -0.185783 -0.824330 0.197894 0.187231ColoradoTexas New YorkOhio2000Q1 0.327217 0.317682 0.008228 0.2569152000Q2 0.327217 0.317682 0.008228 0.2569152000Q3 0.327217 0.317682 0.008228 0.2569152000Q4 0.327217 0.317682 0.008228 0.2569152001Q1 -0.185783 -0.824330 0.197894 0.187231 ColoradoTexas New YorkOhio2001Q3 0.327217 0.317682 0.008228 0.2569152001Q4 0.327217 0.317682 0.008228 0.2569152002Q1 0.327217 0.317682 0.008228 0.2569152002Q2 0.327217 0.317682 0.008228 0.2569152002Q3 -0.185783 -0.824330 0.197894 0.187231[Finished in 0.8s]

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。