En un primer artículo de Limpieza de Datos se habló de la importancia que tiene hacer un análisis exploratorio de datos. Este análisis permite visualizar el tipo de datos con los que se va a trabajar, ver si hay datos duplicados, corregir posibles errores estructurales, corregir outliers y hacerse una idea de cómo manejar los datos faltantes. En el blog de Manejo de Outliers vimos qué se puede hacer cuándo se tienen outliers. Siguiendo en la línea de análisis de datos, en este blog veremos qué se puede hacer cuando hay datos faltantes. En 1976, Donald Rubin (1) postuló que el problema de datos faltantes se puede dividir en 3 categorías. En su teoría, todos los puntos de un set de datos tienen una probabilidad de no estar. El proceso que gobierna estas probabilidades se llama mecanismo de datos faltantes. El modelo para este proceso se llama modelo de datos faltantes.
Es también común hoy en día en agregar un cuarto tipo de dato faltantes, que se relaciona con la estructura de los datos. Veamos a continuación los 4 tipos:
Cuando se trabaja con datos faltantes, es importante entender cómo se producen y cómo pueden afectar los resultados de nuestro análisis.
En una encuesta de satisfacción del cliente para una aerolínea, una de las preguntas podría ser: «¿Cómo calificaría nuestro servicio de comida a bordo?». Para los vuelos de corta distancia que no ofrecen servicio de comida, esta pregunta quedaría sin respuesta. Este es un caso de dato estructuralmente faltante.
Otros ejemplos podrían incluir:
Estos datos son valiosos en sí mismos, pues nos permiten entender el por qué la variable no está imputada. No deben tratarse como otros tipos de valores faltantes.
Se suelen manejar mediante codificación especial, análisis por separado o creación de variables indicadoras. Por ejemplo, en el caso de la aerolínea indicado más arriba, se puede indicar el valor ‘NO APLICA’, o se trabajan los datos por separados (vuelos largos versus vuelos cortos), o se crea una variable nueva que indique el tipo de vuelo.
Los datos son MCAR cuando la probabilidad de que un valor esté faltante:
Es importante mencionar que se puede (y se debe) verificar estadísticamente que si los datos son MCAR.
En la práctica, MCAR es bastante raro. La mayoría de los datos faltantes en el mundo real tienen algún tipo de patrón o relación con otras variables. Bajo MCAR, incluso los métodos más simples como la eliminación de casos completos son válidos (aunque no óptimos) sin correr el riesgo de sesgar los resultados.
Un ejemplo típico de MCAR sería cuando un equipo de medición falta aleatoriamente o cuando algunas encuestas se pierden debido a problemas técnicos aleatorios. O cuando en una plataforma de comercio electrónico, fallos aleatorios en el servidor causan que algunas transacciones no registren la hora exacta de la compra.
MCAR es el escenario ideal porque la ausencia de datos no introduce ningún sesgo sistemático en nuestros análisis.
Sí, los datos MCAR pueden ser imputados utilizando una variedad de métodos, incluyendo imputación simple o métodos más avanzados. Se pueden eliminar siempre y cuando sean un pequeño porcentaje del total de datos (<5%).
Este caso ocurre cuando la probabilidad de que falte un valor está relacionada con otras variables observadas, pero no con el valor faltante en sí.
Una cadena de tiendas realiza encuestas de satisfacción después de cada compra. Se observa que la tasa de respuestas está relacionada con el monto de la compra. El patrón que vemos aquí es que aquellos clientes que más gastan más tienden a responder la encuesta. La probabilidad de respuesta depende del monto de compra (variable que sí se observa), NO del nivel de satisfacción (la variable faltante).
Otro ejemplo sería en evaluaciones de desempeño. Se nota que los datos faltantes en las evaluaciones están relacionados con el departamento y la antigüedad del empleado, e.g., departamentos de ventas tienen mejor tasa de completitud (90%), departamentos administrativos, menos (60%), empleados más antiguos tienen mejor tasa de completitud. Los datos faltantes no dependen del desempeño en sí mismo.
Los valores MAR son más tratables porque el patrón de datos que falta es predecible basándonos en otras variables que sí observamos. Esto implica que podemos utilizar algoritmos sencillos (regresiones lineales/logísticas) para predecir el dato que falta.
Sí, los valores MAR se pueden imputar con mayor confianza que los MNAR (que se detallan a continuación) usando técnicas como imputación múltiple o imputación basado en modelos (como se mencionó anteriormente).
Si los datos no son MCAR ni MAR, entonces se clasifican como MNAR. Básicamente, MNAR ocurre cuando la probabilidad de que falte un dato está relacionada con el valor faltante mismo.
En una encuesta de satisfacción al cliente en una tienda de lujo, los clientes que tuvieron una experiencia muy negativa podrían ser más propensos a no responder la pregunta sobre si recomendarían la tienda.
Otro ejemplo sería en una aplicación de préstamo bancario, los clientes con altos niveles de deuda tienden a no reportar su deuda total actual. La probabilidad de que falte este dato está directamente relacionada con el monto de la deuda que no quieren revelar.
En un programa de seguimiento de peso en un gimnasio, aquellos clientes que han subido de peso son más propensos a no asistir a las sesiones de pesaje. La probabilidad de un dato faltante de peso está directamente relacionada con el aumento de peso no registrado.
Son problemáticos porque la razón de su ausencia está relacionada con la información que falta. Ignorar o imputar estos valores podría llevar a conclusiones sesgadas (por ejemplo, en el ejemplo del peso, imputar por el promedio del peso puede llevar a concluir que el programa ha funcionado, cuando en realidad hay gente que ha aumentado su peso).
En general, los valores MNAR no deben reemplazarse mediante técnicas de imputación estándar. Se recomienda:
Es muy importante entender y manejar adecuadamente los datos faltantes. Es muy fácil caer en la tentación de eliminar los registros o imputarlos, pero como vimos, cada dato faltante (MNAR, MAR, MCAR y Estructuralmente Faltantes) requiere un enfoque diferente.
En cada proyecto que llevamos a cabo en Brain Food, que involucre datos, hacemos un análisis exhaustivo de los datos en el Análisis Exploratorio de Datos (EDA por sus siglas en inglés). En estos casos, nuestro approach es:
Es importante recalcar que no existe un enfoque único que sea el mejor para todos los casos. La clave está en entender los datos, el contexto del negocio y las implicaciones de las decisiones de manejo de datos faltantes.
Por ello, en Brain Food nos destacamos por realizar un EDA en profundidad, siempre cuestionando y preguntando al cliente sobre los datos, para así entender el contexto del negocio y con esto asegurar el éxito del proyecto.
(1) Inference and Missing Data, Donald Rubin, 1976.