jueves, 31 de octubre de 2013

Introducción al pensamiento bayesiano

Introducción

Introduciremos el pensamiento bayesiano con el análisis de una proporciòn poblacional. Antes de tomar una muestra, uno puede tener una buena idea de cuàl es el valor de la proporción poblacional. Esta información se vuelca en una distribuciòn a priori, propia del teorema de Bayes:

g [p | d a t a] \propto g (p) * L (d a t a | p)

$g[p|data] \propto g(p)*L(data|p)$

Donde vemos que la distribución a posteriori según los datos observados $g[p|data]$ es proporcional a la verosimilitud de la muestra para dicho valor p y nuestras creencias $g(p)$ .

Ilustraremos las diferentes maneras de llevar estos conocimientos a una distribución a priori.

Aprendiendo acerca del sueño de los estudiantes

Estamos interesados en estudiar los tiempos de reposo de los estudiantes universitarios ^1. Siendo qu ese recomiendan ocho horas de sueño, ¿qué proporción de estudiantes duerme al menos la cantidad de horas recomendadas?

Sea p dicha proporción. Estamos interesados en conocer el comportamiento de p. Desde un punto de vista bayesiano, p es desconocido, pero tiene una distribución de probabilidad que refleja nuestras conjeturas a priori acerca de su valor. Una muestra aleatoria puede ayudarnos a conocer algo de p, pero tenemos mucha información disponible antes de eso.

Disponemos de una nota de una revista de medicina donde dice que los estudiantes duermen 6 horas por día.
Otra nota refuerza esta opinión con un estudio que dice que durante la semana el 70% de los estudiantes duermen de 5 a 6 horas, un 28% de 7 a 8 hs, y un 2% las 9 horas saludables.
También conocemos que es inviavle dormir menos de cuatro horas de forma sostenida.

Basada esn esta información, podríamos esbozar una distribución de p antes de observar una muestra. p debiera ser menor que 0.5. Probablemente el mejor valor sobre el cual arriesgar sería 0.3, pero con la mayoría de las posibilidades entre 0 y 0.5.

Luego de este ejercicio previo, vemos que disponemos de una muestra de 27 estudiantes con la cual validaremos y perfeccionaremos nuestro conocimiento a priori de p. Observamos 11 estudiantes que durmieron al menos 8 horas. Nos proponemos dos desafíos:

estimar la proporción p con toda la información disponible.
predecir el número de estudiantes que duerma al menos 8 horas en una nueva muestra de 20 estudiantes.

Supongamos que nuestra función de probabilidad a priori de p es g(p). Si consideramos un ”éxito” el dormir al menos 8 horas y tomamos una muestr aaleatoria con s ”éxitos” y f “fracasos”, entonces la función de verosimilitud de p en dicha muestra es:

L (p) \propto p s (1 - p) f 0 < p < 1

$L(p) \propto p^s(1-p)^f \qquad 0 < p <1$

La distribución a posteriori de p, es obtenida proporcionalmente con el teorema de Bayes, tal como se mostró al inicio de la nota:

g [p | d a t a] \propto g (p) * L (p)

$g[p|data] \propto g(p)*L(p)$

Veremos tres métodos comunes para obtener las distribuciones a priori g(p) y a posteriori g(p|data).

Utilización de una función a priori discreta

Creemos que nuestra distribución a priori de p es así:

p	.05	.15	.25	.35	.45	.55	.65	.75	.85	.95
peso	1	5.2	8	7.2	4.6	2.1	0.7	0.1	0	0

Convertiremos los pesos de nuestras crrencias en probabilidades dividiendolos por su suma. Definiremos en R a p como el vector de proporciones y prior lso correspondientes pesos normalizados, o probabilidades asociadas. El comando plot nos permitirá graficar nuestra distribución a priori.

p = seq(0.05, 0.95, by = 0.1)
prior = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)
prior = prior/sum(prior)
plot(p, prior, type = "h", ylab="Probabilidad a priori")

^1: Muestra obtenida de un colegio americano de estudiantes

viernes, 4 de octubre de 2013

Cuidado con las sumarizaciones

Me ha gustado este ejemplo del que surge una advertencia para aquel analista que realice conclusiones sobre totales en una tabla de doble entrada.
El siguiente cuadro presenta los resultados de dos tipos de tratamiento para cálculos renales. Las tasas de éxito totales (78% para cirugía abierta y 83% para tratamiento por ultrasonido). No obstante, cuando se comparan los métodos según el tamaño del cálculo, en ambos casos la tasa de éxito favorece a la cirugía abierta.

	Pequeña			Grande			Total
	cir abierta	ultrasonido		cir abierta	ultrasonido		cir abierta	ultrasonido
éxito	81	234	éxito	192	55	éxito	273	289
fracaso	6	36	fracaso	71	25	fracaso	77	61
Tasa de éxito	93%	87%	Tasa de éxito	73%	69%	Tasa de éxito	78%	83%

Los peligros de malinterpretar resultados están a la vista. Veamos cómo hacerlo en R:


piedras <- array(c(81,6,234,36,192,71,55,25), dim=c(2,2,2),


dimnames=list(Resultado=c("Exito","Fracaso"),


Método=c("cir abierta","ultrasonido"),


Tamaño=c("<2cm", ">=2cm")))


mosaicplot(piedras, sort=3:1)







  




El diagrama de mosaico muestra que la tasa general de éxito, para la cirugía abierta está sesgada hacia los resultados por cirugía abierta en piedras grandes, miestras que el ultrasonido está sesgado hacia los resultados con càlculos pequeños.

jueves, 26 de septiembre de 2013

Introducción a los métodos de reservamiento

En esta nota explicaremos brevemente el proceso de un siniestro y como surge de ello la necesidad de reservar.

Proceso del siniestro

Asumamos que estamos ante una situación de "riesgo", asociado con una cobertura de seguro. Sus características esenciales son la existencia de una persona o corporación que se ve afectada por acontecimientos fortuitos dentro de un período definido. Un ejemplo sería un individuo con seguro de daños en su coche privado sufriendo un choque que le genera un costo de reparación.
Si existe cobertura de seguro, la situación será una pérdida asegurada, que se convertirá en un siniestro para la aseguradora.

Normalmente habrá un retraso entre el hecho causante del siniestro y su liquidación monetaria, que puede tratarse de días o años, según se trate el tipo de daño cubierto. Otras fechas importantes participan en el proceso. Después de la ocurrencia del siniestro, viene la fecha en la cual el asegurador se entera del evento. Este período dependerá del tipo de riesgo asociado. Por ejemplo, cuando un barco está dañado en el puerto, pero el daño se hace evidente sólo cuando está el dique seco en una fecha posterior.

Reserva de casos

La demora entre el evento y la liquidación significa que el asegurador debe establecer "reservas" respecto de los siniestros pendientes de liquidación (SPL). Dichas reservas son recursos necesarios para equiparar y cubrir los costos que van surgiendo de las reclamaciones no firmemente establecidas en el momento del evento dañoso.
Las reservas de casos cubren así eventos ya ocurridos, que es distinto a cubrir siniestros futuros derivados de los riesgos cubiertos por la aseguradora hasta la extinción de la cobertura de la póliza. Estos pasivos se cubren con la reserva de prima no devengada o reserva de riesgos en curso, que no trataremos aquí.
Nos preocupan la constitución de reservas para siniestros ocurridos hasta una fecha particular (la fecha de "valuación").
Aquí se hace una clasificación entre los siniestros ocurridos y reportados a la aseguradora, y los siniestros ocurridos pero aún no reportados a la aseguradora (IBNR).
Muchas veces se incluye en el segundo item, la adición de reservas por siniestros no correctamente evaluados y necesita una adición futura de reserva (se conoce como IBNER).
Podemos ver a las reservas como un intento de atribuír valor financiero a estos pagos aún no realizados. Por supuesto que la presición no existe acá y las reservas deben ser estimadas. Distintas suposiciones sobre las futuras influencias en los resultados de estos siniestros llevarán a una menor o mayor estimación de las reservas, lo que implica un esfuerzo financiero diferente que se verá en la hoja de balance de la compañía de seguros.
Es por ello que la estimación de las reservas debe realizarse cuidadosamente y tener en claro cuáles son sus supuestos de base.
Enumeramos a continuación razones por las cuales las reservas son necesarias:
- evaluar la situación financiera de la aseguradora. Los movimientos de dichas reservas son esenciales para evaluar su progreso.
- calcular el costo final de un negocio en el sentido de que es necesario conocer los costos futuros aún no liquidados de siniestros ocurridos en el pasado.
- evaluar la solvencia del asegurador, para ver si sus activos disponibles pueden hacer frente a sus compromisos futuros por siniestros que le han contraído obligaciones.
- determinar el valor del patrimonio neto de los accionistas, sobretodo con la intención de calcular ganancias y repartición de dividendos sin afectar la solvencia de la aseguradora.
- cerrar o ceder un rama de negocio con un reasegurador, poniendo un valor económico a la cartera de siniestros actual.

Hasta principio de los años '70, el enfoque de reservas era normalmente sobre siniestros conocidos. La práctica consistía en evaluar individualmente cada siniestro periódicamente y estimar su valor vigente. De allí el nombre "reserva de casos" para las reservas de siniestros conocidos. Todas estas estimaciones individuales se agregaban para formar una gran reserva total por créditos no pagados. Con el paso del tiempo y el aumento de la capacidad informática de someter los datos a un escrutinio estadístico más profundo, se comenzó a ver que estos métodos no eran los más adecuados.
También a veces el volumen de siniestros y evoluciones hace que sea imposible mantener una evaluación individual y periódica como se plantea. También el IBNR no puede tener una estimación individual, debido a que no se conoce aún el siniestro (se necesita otro tipo de técnica de reservamiento).
El estimador de casos - liquidador o gestor de siniestros - requiere de acceso a los detalles de la póliza cubierta, a los siniestros y su historial, antes de poner realizar una estimación de reserva. De manera similar, los métodos de estimación estadística también precisan de acceso a bases de información relacionados con el grupo de siniestros a reservar.
Los datos más relevantes para realizar una reserva refieren a los costos incurridos, el número de siniestros reportados, y de ellos discriminar el grupo de siniestros terminados y los que siguen vigentes. También se tiene en cuenta otro tipo de información más "blanda" quedan característica a subgrupos de siniestros.
También es necesario establecer un aserie de supuestos para poder proyectar los costos futuros. Aquí es esencial el uso de la información blanda. Otro punto importante a tener en cuenta es la naturaleza y calidad de los datos sobre los que el método se basará.
Por todas estas razones, es crucial que la persona encargada de confeccionar las reservas esté familiarizado con el negocio subyacente.

laboratorio actuarial

Latex