时间序列笔记(一)
时序数据特性
时序数据着眼于研究对象在时间顺序上的变化,寻找对象历史发展的规律。一般来说,时序数据的观察值由以下主要要素构成。
趋势性:时间序列在长时间内所呈现的行为,指受某种根本性因素影响而产生的变动或缓慢的运动。
循环性:指时间序列的变动有规律地徘徊于趋势线上下并反复出现。
季节性:一年内随季节变换而发生的有规律的周期性变化,如流感季,但更小单位的周期变动也被看成季节成分,如日交通流量反映了一天内“季节”变化情况。
波动性:围绕前3个要素的随机性波动,是一种无规律可循的变动。
平稳序列
指那些基本上不存在趋势的序列,序列中的观察值在某个固定的水平上随机波动,不存在某种显而易见的规律。
非平稳序列
指有趋势的序列,或者由趋势性、季节性和周期性混合而成的复合序列。
时序数据分析
常用的时序分析模型:
线性时序模型首先考虑序列平稳性,平稳时间序列是指均值和方差为常数的时间序列,其自协方差函数与起点无关,可采用自回归滑动平均模型(Auto-Regression Moving Average,ARMA)处理。非平稳时间序列可以考虑将其经差分后转化为平稳时间序列,然后用自回归积分滑动平均模型(Auto-Regression Integrated Moving Average,ARIMA)处理。有些序列成因极其复杂,则需要采用非线性模型,如核岭回归模型和神经网络模型。非线性模型需要大量的训练和检验,计算量远大于线性模型。
分析过程
对于给定的时序数据,首先要对其进行纯随机性和平稳性检验,非平稳序列数据需要经过d阶差分转换为平稳序列;然后使用ARMA或ARIMA建模,确定模型的最优参数;最后使用获得的模型进行预测。如果经过差分仍未能获得平稳序列,则考虑采用非线性建模。
纯随机性检验
纯随机序列也称白噪声序列,序列中各项之间没有任何相关关系,数据波动完全随机,数据中没有可提取的信息,无须进一步分析。
纯随机性检验也称白噪声检验。如果一个序列是纯随机序列,自相关系数应为零,当然实际的随机序列样本自相关系数不太可能恰好为零,往往在零值附近波动。在实践中常使用Q(Pierce-Box)或LB(LJung-Box)统计量来进行白噪声检验,如果检验得出的概率p值远小于0.05,则说明不是纯随机序列。
平稳性检验
对序列的平稳性检验可以先进行直观判别,如果一个随机序列是平稳的,在时间序列图上序列值将在一个常数附近随机波动,没有明显的趋势性或周期性。另外,平稳序列具有短期相关性,这意味着在相关图上,平稳随机序列的自相关系数衰减快,称为截尾现象,而非平稳随机序列衰减较慢,称为拖尾现象。进一步采用单位根(Augment Dickey-Fuller,ADF)检验进行定量分析,如果存在单位根(即检验统计量的概率p值远大于0.05),则序列是非平稳序列,否则为平稳序列。
ARMA
ARMA(p,q)建模计算平稳时间序列的自相关函数(AutoCorrelation Function,ACF)和偏自相关函数(Partial AutoCorrelation Function,PACF),通过对自相关图和偏自相关图的分析获得参数p和q的大概范围,根据AIC(Akaike Information Criterion)信息准则,计算候选参数空间内每个模型的AIC值,最小的AIC值对应的p和q为最佳的阶数。此过程也称为定阶。
ARIMA
ARIMA建模尝试通过差分运算将非平稳的时序转换为平稳序列。序列每次差分运算后都需要检验是否已经平稳,如果已平稳则转入与ARMA模型相似的定阶过程;否则需再次进行差分运算。ARIMA(p,d,q)模型中的参数d就表示差分的次数,称为d阶差分,参数p和q与ARMA模型相同。
参考:《数据科学技术与应用》宋晖著