Latex

domingo, 19 de agosto de 2012

Cuando los supuestos subyacentes no se cumplen

En nuestra nota anterior hemos descripto los cuatro supuestos básicos que subyacen en una mayoría de modelos estadísticos. Ahora investigaremos qué sucede cuando alguno(s) de ello(s) no se cumple(n).

Los cuatro supuestos básicos eran:
  1. aleatoriedad
  2. posición fija
  3. dispersión fija
  4. distribución fija 

Consecuencias de no aleatoriedad

Si el supuesto aleatoriedad no se cumple, entonces:
  1. Todos los tests estadísticos quedan invalidados.
  2. Los rangos de variación pierden significado.
  3. El cálculo de muestra mínima o suficiente carece de sentido. En un escenario totalmente no aleatorio, tomar muestras carece de sentido.
  4. El modelo respuesta = constante + error pierde sentido.
  5. La estimación de sus parámetros a través de muestras se torna sospechoso.
Un caso específico de no aleatoriedad es la existencia de autocorrelación. La autocorrelación es la relación que existe entre la variable aleatoria $Y_t$ y la misma variable k períodos antes $Y_{t-k}$. La autocorrelación sería una no-aleatoriedad en base al tiempo de observación. La autocorrelación se detecta con el gráfico de lags que hemos visto o con un correlograma.
Si los datos están afectados por autocorrelación, entonces:
  1. Los datos adyacentes están relacionados.
  2. No se tienen n muestras independientes.
  3. Los outliers son más difíciles de detectar.

Consecuencias de no existir un parámetro de posición fijo

La estimación usual de posición es la media muestral:
$${\bar{Y} = \frac{1}{N}}{\sum\limits_{j=1}^{N} Y_i}$$
Si el supuesto de posición fija no se cumple,
  1. La posición estimada puede tener tendencia.
  2. La fórmula usual de incertidumbre de la media:  $${s(\bar{Y}) = \frac{1}{\sqrt{N(N-1)}}}\sqrt{\sum\limits_{j=1}^{N} {(Y_i - \bar{Y})}^2}$$ puede ser inválida y su valor numérico sería menor.
  3. La estimación de otra medida de posición simple sería pobre y sesgada. 

Consecuencias de no existir un parámetro de dispersión fijo

La estimación usual de dispersión es el desvío estándar:
$${s(Y) = \frac{1}{\sqrt{N-1}}}\sqrt{\sum\limits_{j=1}^{N} {(Y_i - \bar{Y})}^2}$$
Si el supuesto de dispersión fija no se cumple,
  1. La varianza puede tener tendencia.
  2. La estimación simple de la varianza pierde significado y puede estar sesgada.

Consecuencias de no conocer la distribución subyacente

Rutinariamente se utiliza la media (promedio) para estimar el "medio" de una distribución de probabilidad. Así también se utiliza la fórmula de desvío estándar para estimarle un rango de variación:
$${s(\bar{Y}) = \frac{1}{\sqrt{N(N-1)}}}\sqrt{\sum\limits_{j=1}^{N} {(Y_i - \bar{Y})}^2}$$
No es muy conocido que dicha fórmula tiene supuestos de una distribución normal subyacente (aparte de un buen tamaño de muestra), y si no se cumple, estos márgenes quedan invalidados.
Para algunos tipos de distribuciones, sobre todo las distribuciones con una distribución asimétrica importante, la media como medida de posición resumen es una elección pobre. Cada distribución tiene una medida de posición óptima para elegir; se recomienda elegir aquella que menos variabilidad y ruido tenga. Esta elección óptima podría ser, por ejemplo, la mediana, el rango medio, la moda, etc... Esto implica tener que estimar la distribución subyacente, y una vez conocida la distribución de probabilidad, elegir el estimador de posición.
Trataremos estas técnicas de estimación en una nota futura. lo importante es estar conscientes que si el histograma y gráfico p-p Plot no muestran la distribución esperada (habiendo ya afirmado la componente determinística del modelo), es mejor dedicar tiempo a estimar la distribución subyacente.

Otras consecuencias de subestimar la distribución subyacente son:

 En la distribución

  1. La  distribución subyacente puede ir cambiando.
  2. Si sucede lo del punto 1, una estimación por única vez de la distribución subyacente es insuficiente y quedará obsoleta.
  3. La distribución subyacente puede ser marcadamente no normal
  4. La verdadera distribución de probabilidad para el error puede mantenerse desconocida y deberemos conformarnos con una aproximación. 

 En el modelo

  1. El modelo puede ir cambiando.
  2. Si sucede lo del punto 1, una estimación por única vez de la distribución subyacente es insuficiente y quedará obsoleta.
  3. El modelo respuesta = constante + error puede quedar inválido.
  4. Si no se tiene identificada la distribución correcta, una mejora necesaria al modelo puede quedar oculta.

 En el proceso

  1. El proceso puede estar fuera de control y no detectarse.
  2. El proceso puede ser impredecible y no ser consciente de ello. 
  3. El proceso puede ser no modelable.

No hay comentarios:

Publicar un comentario