Latex

sábado, 28 de enero de 2012

El Análisis Exploratorio de Datos (EDA)

EDA es un enfoque de análisis de datos. ¿Qué otros enfoques existen? Podemos destacar tres enfoques populares:


  1. Enfoque Clásico
  2. Enfoque Exploratorio (EDA)
  3. Enfoque Bayesiano
Estos tres paradigmas tienen el objetivo común de abordar un problema de manera científica. Sus diferencias radican en el orden de los pasos a seguir:

  1. Enfoque Clásico:  secuencia  Problema>Datos>Modelo>Análisis>Conclusiones.
    La revisión de los datos impone un modelo (normalidad, linearidad, etc...), y el análisis, estimación y testeo subsiguiente está concentrado en los parámetros de dicho modelo seleccionado.
  2. Enfoque Exploratorio (EDA):  secuencia  Problema>Modelo>Análisis>Datos>Conclusiones.
    Los datos no imponen un modelo; en su lugar se prueban modelos en base a análisis y se selecciona el más apropiado.
  3. Enfoque Bayesiano: :  secuencia  Problema>Datos>hipótesis a Priori>Modelo>Análisis>Conclusiones.
    El analista intenta incorporar su experiencia con funciones independientes de los datos recolectados que las asume como ciertas, y luego se plantean modelos con los datos para arribar a conclusiones.
Enfocándonos en los primeros dos enfoques, apreciamos las siguientes diferencias en los siguientes temas:

El modelo

El enfoque clásico impone modelos (tanto determinísticos como probabilísticos) sobre los datos observados. El enfoque se encuentra en el modelo.
El enfoque Exploratorio (EDA) no impone un modelo a los datos, sino que son estos últimos los que sugieren los modelos. El enfoque se encuentra en los datos.


Herramientas utilizadas

Sin ser listas exhaustivas y determinantes de ambos enfoques, podemos decir que los enfoques utilizan con mayor frecuencia las siguientes herramientas:



  • El enfoque clásico: Herramientas cuantitativas para validar los modelos a probar: ANOVA, Pruebas t, F y Chi cuadrado, 
  • El enfoque Exploratorio (EDA) utiliza más herramientas gráficas: dispersión, histogramas, cajas, residuales, etc.




Rigor científico

Sin duda el enfoque clásico responde al paradigma clásico del método científico, por lo que es objetivo y formal y riguroso.

El análisis EDA no tiene los mismos niveles de rigurosidad y formalismo. Aborda los problemas inferencialmente y sus conclusiones son sugestivas e indicativas, muy en base a la experiencia del analista.



Tratamiento de los datos

Las estimaciones del enfoque clásico se realizan generalmente comparando laa calidad del modelo evaluando algunas propiedades de los datos (media, mediana, desvío estándar, nivel de asimetría, percentiles de cola, etc). Por lo tanto hay cierta pérdida de información.

El enfoque EDA, por otro lado, hace uso de toda la información disponible y no hay pérdida de información.



Hipótesis planteadas

El enfoque toma como punto de partida un modelo hipotético a contrastar con los datos de la muestra. Pero estos contrastes se basan a su vez en distribuciones teóricas que asumen hipótesis sobre los datos que pueden no llegar a cumplirse. Entonces, la validación del método científico termina valiendose de tests que tienen hipótesis subyacentes no necesariamente probadas, y las conclusiones pueden terminar siendo dudosas.

En EDA, varios de los tests de comprobación son no paramétricos, y otros meramente visuales.

Finalmente decidirá el analista qupe modelo serpa el mejor, independientemente del enfoque utilizado.



Como resumen, podemos decir que le enfoque clásico es una reducción numérica de un set de dato. Es así un enfoque pasivo. Su propósito es arribar con sus modelos a unas pocas medidas clave (por ej, media y desvío estándar). En contraste, EDA tiene el objetivo de explorar los procesos científicos que se hallan detrás de los datos. Utiliza los datos como una "ventana" que mira los procesos subyacentes que los han generado.