…Ni están todos los que son

Imputación de datos.

imputación de datos

La imputación de datos incluye una serie de técnicas para asignar valores teóricos a las variables con datos perdidos o faltantes.

Supongo que conocéis esta frase. Habitualmente se usa para dar a entender que alguien no anda muy en sus cabales por algo que haya dicho. Ya sabéis también que la frase pertenece a un refrán más largo que dice que “ni son todos los que están, ni están todos los que son”, que suele referirse a los manicomios.

Según el refrán, ni todos los que están ingresados en un manicomio están locos, ni todos los que estamos fuera estamos cuerdos. Yo, personalmente, no puedo decir nada de la primera mitad, ya que nunca he estado ingresado en uno de ellos, aunque siempre se está a tiempo. En cuanto a la segunda mitad, es evidente que es cierta. Yo me atrevería a decir que hay incluso más locos fuera que dentro.

Pero hoy no vamos a hablar de locos, sino de otros que tampoco están. Pero estos no están no por no ser nada, sino simplemente por faltar. Son los datos faltantes, mundialmente conocidos como missing, por aquello del dominio de la lengua inglesa en el mundo de la ciencia.

Datos faltantes o ausentes

La ausencia de datos es muy frecuente en cualquier estudio de investigación. No hay encuesta o base de datos de cualquier estudio en el que no haya casillas vacías, a veces incluso de datos con gran interés para el investigador. Las causas para que falten datos pueden ser múltiples. A veces, los encuestados no responden por falta de tiempo o de interés. A veces responden, pero contestan algo sin sentido o el investigador se equivoca al codificar la respuesta. Otras veces están relacionadas con las pérdidas durante el seguimiento que se producen en muchos estudios, o con faltas de cumplimiento de los tratamientos de los ensayos.

Tipos de pérdidas

Hay varias formas de reaccionar ante la pérdida de datos, pero cuál elegir depende en gran parte de los mecanismos que producen esta ausencia de datos. En este sentido, los datos pueden perderse al azar (DPA), perderse de forma no aleatoria (DPNA) y de forma completamente aleatoria (DPCA).

Las ausencias de DPA pueden estar relacionadas con una determinada variable, pero no con el valor que tenga. Por ejemplo, si valoramos el efecto teratogénico de un fármaco, el valor de la variable dependerá de la variable “embarazo previo” o de la variable “indicación del fármaco”, que pueden también faltar del registro. Otro ejemplo es la omisión u olvido accidental a la hora de contestar una de las preguntas de la encuesta.

Por otro lado, los DPCA no están relacionados con ninguna de las variables medidas ni con los factores conocidos o desconocidos que puedan influir en la variable. Como su nombre indica, las pérdidas ocurren totalmente al azar, pero esto es algo que ocurre pocas veces. Asumir que las pérdidas son totalmente aleatorias es difícil de probar, porque siempre pueden ser debidas a una variable en la que no se haya pensado y que tenga un efecto desconocido sobre la variable de resultado.

Por último, los DPNA responden a una causa determinada que habitualmente no hemos observado. Por ejemplo, si los participantes de un ensayo faltan a una visita intermedia por olvido, la ausencia de datos en esa visita puede ser aleatoria. Pero si faltan porque en esa visita se encuentran fatal por un efecto de la intervención, los datos faltantes no podrán ser considerados aleatorios.

Los DPA y los DPCA pueden ser ignorados, aunque siempre con cierto riesgo de sesgo. Sin embargo, nunca deben ignorarse los DPNA. Hacerlo nos llevará siempre a la obtención de estimaciones sesgadas, comprometiendo la validez interna y externa de los resultados.

¿Y qué podemos hacer con los datos ausentes?. Lo ideal, claro está, es que no nos falten datos, para lo cual deberemos ser cuidadosos al diseñar el estudio, en especial las fases de recolección de datos. Pero, por muy cuidadosos que seamos, será raro que no tengamos datos faltantes. En este caso podemos hacer dos cosas: ignorarlos o inventarlos.

Podemos ignorarlos y hacer un análisis de los datos completos. El problema es que siempre perdemos la información de los participantes con algún datos ausente, además de correr el riesgo de cometer algún sesgo. Y ya hemos dicho que esta práctica está totalmente desaconsejada en el caso de DPNA. En estos casos, las pérdidas deben analizarse y tratar de explicarlas.

Imputación de datos

La otra posibilidad es inventarlos, pero como esto suena muy mal, usamos la palabra imputarlos. Hay diversas técnicas de imputación de datos, las simples y las múltiples.

Entre las técnicas de imputación simple están el método de medias no condicionadas, el método de medias condicionadas para datos agrupados, la imputación con variables ficticias, la imputación mediante una distribución no condicionada (el hot deck de los ingleses), la imputación del valor vecino más próximo (cold deck) y la imputación por regresión.

La mayor parte de los investigadores suelen preferir los métodos de imputación múltiple, asegurándose previamente de que las pérdidas sean aleatorias, lo que, en ocasiones, puede ser complicado, como ya hemos mencionado previamente. Estos métodos utilizan una simulación de Monte Carlo y sustituyen los datos faltantes por otros obtenidos a partir de un número de simulaciones, que se suele considerar óptimo entre 3 y 10. La matemática es compleja, pero la mayor parte de las aplicaciones informáticas estadísticas implementa algún método de imputación de datos.

Es difícil decidir cuándo utilizar un método de imputación simple o uno múltiple. En general, si tratamos con una encuesta compleja y el número de datos faltantes no es muy alto, es probable que un método simple reproduzca bien las características de esta subpoblación de interés en la que faltan los datos. Sin embargo, no nos dejemos  tentar por lo más fácil: los métodos de imputación múltiple suelen ser más adecuados para este fin que los simples.

Nos vamos…

Para terminar con los datos faltantes deciros que hay alguna opción más aparte de obviarlos o inventarlos. Por ejemplo, con variables continuas pueden utilizarse modelos lineales de mediciones repetidas para analizar los resultados a lo largo del seguimiento. Para las variables categóricas existen también otras técnicas estadísticas más complejas, como los modelos de ecuaciones de estimaciones generalizadas o los modelos lineales mixtos de efectos aleatorios generalizados. Pero esa es otra historia…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Manuel Molina Arias.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Aleph que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, aceptas el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Antes de aceptar puedes ver Configurar cookies para realizar un consentimiento selectivo.    Más información
Privacidad