Latex

miércoles, 29 de agosto de 2012

Gráficos de autocorrelación

Los gráficos de auto-correlación comenzaron a utilizarse por Box y Jenkins en análisis de series de tiempo.
Son comúnmente utilizados para chequear la aleatoriedad de los datos, que se comprueba analizando la relación entre pares de datos de la muestra, a diferentes rezagos (lags). Si existe una correlación significativa en algún nivel de rezago, se puede decir que los datos no son completamente aleatorios.
También se utilizan estos tipos de gráficos para comenzar a construir modelos auto-rregresivos y de medias móviles.
Hay tres tipos básicos de gráficos de auto-correlación:
  • Gráfico de auto-correlación puro
  • Gráfico de auto-correlación parcial
  • Gráfico de auto-correlación cruzada

Gráfico de auto-correlación puro

Mide el nivel de correlación entre una variable aleatoria $Yt$ y $Y(t+h)$, h períodos después. El rezago h se va variando en el gráfico para analizar un amplio espectro.

El siguiente gráfico de auto-correlación fue ejecutado con el comando acf (o plot.acf, es lo mismo) del lenguaje R. :

a<-acf(presidents, na.action = na.pass,lwd=3,col="red",main="")
title(main="Ranking Trimestral de Aprobación",font.main= 2, line=2)
title(main="Presidentes de Estados Unidos 1945-1974",font.main= 1, line=1)



Esta autocorrelación en la muestra de satisfacción de presidentes de EEUU  muestra que la serie de tiempo no es aleatoria debido a que los valores observados superan los umbrales de aleatoriedad.

Explicamos en más detalle los elementos del gráfico:

En el eje vertical se tiene la medida del coeficiente de auto-correlación.
$$R_h=C_h/C_0$$
donde $C_h$ es la función de auto-covarianzas.
$$C_h=\frac{1}{N}\sum\limits_{t=1}^{N-h}{(Y_t-\bar{Y})(Y_{t+h}-\bar{Y})}$$
donde $C_0$ es la función de varianza.
$$C_0=\frac{1}{N}\sum\limits_{t=1}^{N}{(Y_t-\bar{Y})^2}$$
Al ser la varianza por definición mayor al valor de la covarianza, $R_h$ se encuentar entre -1 y 1.
Hay que prestar atención que a veces la función de auto-covarianzas viene definida de forma insesgada:
$$C_h=\frac{1}{N-h}\sum\limits_{t=1}^{N-h}{(Y_t-\bar{Y})(Y_{t+h}-\bar{Y})}$$
Aunque esta variante cuenta con menos propiedades algebraicas que al dividir por N.

En el eje horizontal se detallan los valores del rezago o lag h (h=0,1,2,3,..).

La función acf maneja este límite con el argumento lag.max.

Las líneas punteadas en azul destacan un intervalo de confianza para $R_h$. En el gráfico se tomaron al 95% (valor predeterminado de la función R acf, que por lo que estuve averiguando no se puede modificar en el gráfico)

Hay dos formas distintas de generar las bandas de confianza:
  1. Si el gráfico de auto-correlación se está utilizando para detectar no-aleatoriedad (del tipo dependencia del tiempo), se recomienda la fórmula
    $$\pm\frac{z_{1-\alpha/2}}{\sqrt{N}}$$
    donde N es el tamaño de la muestra y z el percentil elegido de una distribución normal para un nivel de confianza $\alpha$.
  2. Los gráficos de auto-correlación, como ya hemos mencionado, sirven para estimar modelos de ajuste ARIMA.  En dicho caso, se asume un promedio móvil en la serie y los intervalos se calculan con la siguiente formula:
    $$\pm{z_{1-\alpha/2}}\sqrt{\frac{1}{N}({1+2\sum\limits_{i=1}^{h}R_i^2)}}$$
    donde h es el lag, N es el tamaño de la muestra y z el percentil elegido de una distribución normal para un nivel de confianza $\alpha$. En este caso, el intervalo de confianza crece cuando el lag h crece.
    Se trata de la curva verde en el gráfico. Puede lograrse en R escribiendo los siguientes comandos:
    z <- qnorm(0.975)
    y <- c(z*sqrt(1/a$n.used),z*sqrt(1/a$n.used*(1+2*cumsum(a$acf^2))))
    lines(a$lag,y[-length(y)],col="green")

El gráfico de auto-correlación puede brindar respuesta a las siguientes incógnitas:
  1. ¿son aleatorios los datos en el sentido del tiempo?
  2. ¿son los datos un ruido blanco?
  3. ¿son los datos una serie sinusoidal?
  4. ¿se observan auto-rregresiones significativas?
  5. ¿qué modelo parece seguir la serie de tiempo observada?
  6. ¿es el modelo Y = constante + error válido o insuficiente?
  7. ¿es válida la fórmula $s_\bar{Y}=s/\sqrt{N}$?

Gráfico de correlaciones parciales

Cuando se mide la auto-correlación de una variable aleatoria Y entre dos momentos t y t+h, pasa por momentos intermedios que condicionan el resultado final y estamos midiendo la resultante de varios lags $Y(t+1)$,$Y(t+2)$,....,$Y(t+h)$.
La auto-correlación parcial estima la relación entre $Y(t)$ y $Y(t+h)$, sin los efectos añadidos por los lags de 1h-1.
Los gráficos de auto-correlación parcial son útiles para identificar comportamientos auto-regresivos en los procesos. La auto-correlación parcial de un proceso AR(p) es cero a partir de un rezago igual o superior a p+1. Si el análisis de la muestra indica que un modelo auto-regresivo puede ser utilizado, entonces el se examina el gráfico de auto-correlación parcial para conocer el orden.
El gráfico se lee de la misma manera que el gráfico de auto-correlación: se busca el punto a partir del cual las auto-correlaciones parciales comienzan a no ser significativas respecto a la hipótesis nula (auto-correlación cero). Un intervalo de confianza cercano al 95% es tomar bandas de $2\sqrt{N}$.

Realicemos el gráfico de auto-correlación parcial del ejemplo anterior. El código es el mismo sólo que el comando de R cambia de acf a pacf.

pacf(presidents, na.action = na.pass,lwd=3,col="red",main="")
title(main="Ranking Trimestral de Aprobación",font.main= 2, line=2)
title(main="Presidentes de Estados Unidos 1945-1974",font.main= 1, line=1)
Como puede verse, el gráfico de auto-correlación puede resultar engañoso. La gran cantidad de rezagos afectados lo es debido únicamente al primer lag y la alta intensidad que tiene hizo que queden afectados varios niveles. Se trata entonces de un modelo de proceso auto-regresivo de orden 1 AR(1).

Dejo el siguiente link a una aplicación online muy interesante donde se muestra justamente le efecto contagio del primer coeficiente de un proceso AR(1) en un gráfico de auto-correlación.

Resumimos las preguntas que se pueden formular con este gráfico:
  1. ¿es un modelo auto-regresivo AR conveniente para el modelo?
  2. ¿de qué orden p es el modelo AR?

Gráfico de auto-correlación cruzada

Mide el nivel de correlación entre una variable aleatoria $Yt$ y otra variable $X(t+h)$, h períodos después. Desde el punto de vista gráfico, no hay diferencias respecto al gráfico de auto-correlación puro.


G. E. P., and Jenkins, G. (1976), Time Series Analysis: Forecasting and Control, Holden-Day

1 comentario: