Latex

jueves, 31 de octubre de 2013

Introducción al pensamiento bayesiano

Introducción

Introduciremos el pensamiento bayesiano con el análisis de una proporciòn poblacional. Antes de tomar una muestra, uno puede tener una buena idea de cuàl es el valor de la proporción poblacional. Esta información se vuelca en una distribuciòn a priori, propia del teorema de Bayes:

g[p|data]g(p)L(data|p)

Donde vemos que la distribución a posteriori según los datos observados g[p|data] es proporcional a la verosimilitud de la muestra para dicho valor p y nuestras creencias g(p).

Ilustraremos las diferentes maneras de llevar estos conocimientos a una distribución a priori.

Aprendiendo acerca del sueño de los estudiantes

Estamos interesados en estudiar los tiempos de reposo de los estudiantes universitarios ^1. Siendo qu ese recomiendan ocho horas de sueño, ¿qué proporción de estudiantes duerme al menos la cantidad de horas recomendadas?

Sea p dicha proporción. Estamos interesados en conocer el comportamiento de p. Desde un punto de vista bayesiano, p es desconocido, pero tiene una distribución de probabilidad que refleja nuestras conjeturas a priori acerca de su valor. Una muestra aleatoria puede ayudarnos a conocer algo de p, pero tenemos mucha información disponible antes de eso.

  1. Disponemos de una nota de una revista de medicina donde dice que los estudiantes duermen 6 horas por día.

  2. Otra nota refuerza esta opinión con un estudio que dice que durante la semana el 70% de los estudiantes duermen de 5 a 6 horas, un 28% de 7 a 8 hs, y un 2% las 9 horas saludables.

  3. También conocemos que es inviavle dormir menos de cuatro horas de forma sostenida.

Basada esn esta información, podríamos esbozar una distribución de p antes de observar una muestra. p debiera ser menor que 0.5. Probablemente el mejor valor sobre el cual arriesgar sería 0.3, pero con la mayoría de las posibilidades entre 0 y 0.5.

Luego de este ejercicio previo, vemos que disponemos de una muestra de 27 estudiantes con la cual validaremos y perfeccionaremos nuestro conocimiento a priori de p. Observamos 11 estudiantes que durmieron al menos 8 horas. Nos proponemos dos desafíos:

  1. estimar la proporción p con toda la información disponible.

  2. predecir el número de estudiantes que duerma al menos 8 horas en una nueva muestra de 20 estudiantes.

Supongamos que nuestra función de probabilidad a priori de p es g(p). Si consideramos un ”éxito” el dormir al menos 8 horas y tomamos una muestr aaleatoria con s ”éxitos” y f “fracasos”, entonces la función de verosimilitud de p en dicha muestra es:

L(p)ps(1p)f0<p<1

La distribución a posteriori de p, es obtenida proporcionalmente con el teorema de Bayes, tal como se mostró al inicio de la nota:

g[p|data]g(p)L(p)

Veremos tres métodos comunes para obtener las distribuciones a priori g(p) y a posteriori g(p|data).

Utilización de una función a priori discreta

Creemos que nuestra distribución a priori de p es así:

p .05 .15 .25 .35 .45 .55 .65 .75 .85 .95
peso 1 5.2 8 7.2 4.6 2.1 0.7 0.1 0 0

Convertiremos los pesos de nuestras crrencias en probabilidades dividiendolos por su suma. Definiremos en R a p como el vector de proporciones y prior lso correspondientes pesos normalizados, o probabilidades asociadas. El comando plot nos permitirá graficar nuestra distribución a priori.

p = seq(0.05, 0.95, by = 0.1)
prior = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
prior = prior/sum(prior)
plot(p, prior, type = "h", ylab="Probabilidad a priori")

^1: Muestra obtenida de un colegio americano de estudiantes

viernes, 4 de octubre de 2013

Cuidado con las sumarizaciones

Me ha gustado este ejemplo del que surge una advertencia para aquel analista que realice conclusiones sobre totales en una tabla de doble entrada.
El siguiente cuadro presenta los resultados de dos tipos de tratamiento para cálculos renales. Las tasas de éxito totales (78% para cirugía abierta y 83% para tratamiento por ultrasonido). No obstante, cuando se comparan los métodos según el tamaño del cálculo, en ambos casos la tasa de éxito favorece a la cirugía abierta.

Pequeña
Grande
Total



cir abiertaultrasonido
cir abiertaultrasonido
cir abiertaultrasonido
éxito81234éxito19255éxito273289
fracaso
636fracaso7125fracaso7761
Tasa de éxito93%87%Tasa de éxito73%69%Tasa de éxito78%83%

Los peligros de malinterpretar resultados están a la vista. Veamos cómo hacerlo en R:

piedras <- array(c(81,6,234,36,192,71,55,25), dim=c(2,2,2),
dimnames=list(Resultado=c("Exito","Fracaso"),
Método=c("cir abierta","ultrasonido"),
Tamaño=c("<2cm", ">=2cm")))
mosaicplot(piedras, sort=3:1)
El diagrama de mosaico muestra que la tasa general de éxito, para la cirugía abierta está sesgada hacia los resultados por cirugía abierta en piedras grandes, miestras que el ultrasonido está sesgado hacia los resultados con càlculos pequeños.