¿Existe algún problema serio al descartar observaciones con valores faltantes al calcular la matriz de correlación?

12

Tengo este gran conjunto de datos con 2500 variables y 142 observaciones.

Quiero ejecutar una correlación entre la Variable X y el resto de las variables. Pero para muchas columnas, faltan entradas.

Traté de hacer esto en R usando el argumento "pairwise-complete" ( use=pairwise.complete.obs) y arrojó un montón de correlaciones. Pero alguien en StackOverflow publicó un enlace a este artículo http://bwlewis.github.io/covar/missing.html y hace que el método "pairwise-complete" en R parezca inutilizable.

Mi pregunta: ¿Cómo sé cuándo es apropiado usar la opción "completar en pares"?

Mi use = complete.obsdevuelto no complete element pairs, por lo que si podía explicar lo que eso significa también, que sería grande.

Stan Shunpike
fuente
44
Una historia clásica para conocer es la historia de Abraham Wald y la pregunta de dónde agregar armadura a los aviones en la Segunda Guerra Mundial . Es importante comprender por qué faltan sus datos.
Matthew Gunn

Respuestas:

11

El problema con las correlaciones en las observaciones completas por pares

En el caso que describa, el problema principal es la interpretación. Debido a que está utilizando observaciones completas por pares, en realidad está analizando conjuntos de datos ligeramente diferentes para cada una de las correlaciones, según las observaciones que faltan.

Considere el siguiente ejemplo:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Tres variables en el conjunto de datos, a, b, y c, cada uno tiene algunos valores que faltan. Si calcula las correlaciones en pares de variables aquí, solo podrá usar casos que no tengan valores faltantes para ambas variables en cuestión. En este caso, eso significa que analizará solo los últimos 3 casos para la correlación entre ay b, solo los primeros tres casos para la correlación entre by c, etc.

El hecho de que esté analizando casos completamente diferentes cuando calcula cada correlación significa que el patrón de correlaciones resultante puede parecer absurdo. Ver:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Esto parece una contradicción lógica --- ay bestán fuertemente correlacionados positivamente, y by ctambién están fuertemente correlacionados positivamente, por lo que se puede esperar ay ctener una correlación positiva también, pero en realidad hay una fuerte asociación en la dirección opuesta. Puedes ver por qué a muchos analistas no les gusta eso.

Edite para incluir aclaraciones útiles de whuber:

Tenga en cuenta que parte del argumento depende de lo que pueda significar una correlación "fuerte". Es bastante posible que ay basí como by cestén "fuertemente correlacionados positivamente" mientras exista una "fuerte asociación en la dirección opuesta" entre ay c, pero no tan extrema como en este ejemplo. El quid de la cuestión es que la matriz de correlación (o covarianza) estimada podría no ser positiva definida: así es como se debe cuantificar "fuerte".

El problema con el tipo de falta

Puede estar pensando: "Bueno, ¿no está bien asumir que el subconjunto de casos que tengo disponible para cada correlación sigue más o menos el mismo patrón que obtendría si tuviera datos completos?" Y sí, eso es cierto: no hay nada fundamentalmente malo en calcular una correlación en un subconjunto de sus datos (aunque pierde precisión y potencia, por supuesto, debido al tamaño de muestra más pequeño), siempre que los datos disponibles sean aleatorios muestra de todos los datos que habrían estado allí si no tuviera ninguna falta.

Cuando la falta es puramente aleatoria, eso se llama MCAR (falta completamente al azar). En ese caso, analizar el subconjunto de los datos que no faltan no sesgará sistemáticamente sus resultados, y sería poco probable (pero no imposible) obtener el tipo de patrón de correlación loco que mostré en el ejemplo anterior.

Cuando su falta es sistemática de alguna manera (a menudo abreviada MAR o NI, delineando dos tipos diferentes de falta sistemática), entonces tiene problemas mucho más serios, tanto en términos de introducir sesgos potenciales en sus cálculos como en términos de su capacidad para generalizar su resultados para la población de interés (porque la muestra que está analizando no es una muestra aleatoria de la población, incluso si su conjunto de datos completo lo hubiera sido).

Hay un montón de grandes recursos disponibles para aprender acerca de los datos que faltan y cómo tratar con él, pero mi recomendación es Rubin: un clásico , y un artículo más reciente

Rose Hartman
fuente
2
abbcac
1
@whuber Gracias, ese es un punto importante. He actualizado esa sección de la respuesta para incluir esa aclaración.
Rose Hartman
7

Una gran preocupación es si faltan datos de alguna manera sistemática que corrompería su análisis. Sus datos pueden faltar no al azar.

Esto se mencionó en respuestas anteriores, pero pensé que contribuiría con un ejemplo.

Ejemplo financiero: los retornos faltantes pueden ser malos retornos

  • A diferencia de los fondos mutuos, los fondos de capital privado (y otros fondos privados) no están obligados por ley a informar sus rendimientos a alguna base de datos central.
  • Por lo tanto, una preocupación importante es que los informes son endógenos, más específicamente, que algunas empresas no informarán malos rendimientos.
  • 1niRiRi

No todo se pierde necesariamente en estas situaciones (hay cosas que puede hacer), pero ejecutar ingenuamente una regresión (o correlaciones informáticas) en los datos que no faltan puede conducir a estimaciones inconsistentes y seriamente sesgadas de los parámetros verdaderos en la población.

Matthew Gunn
fuente
4

La correlación por pares es apropiada si los datos que faltan faltan completos al azar (MCAR). El libro de datos perdidos de Paul Allison es un buen lugar para comenzar por qué.

Puede probar esto usando la prueba MCAR de Little (1988), que se encuentra en el BaylorEdPsychpaquete.

Tim
fuente
1
Todavía hay motivo de preocupación: incluso con los datos MCAR, la matriz de correlación estimada a través de la correlación por pares puede dejar de ser positiva definida.
whuber
Claro, pero la pregunta se refiere a la correlación, no menciona el uso de la matriz de correlación resultante como una entrada a otro algoritmo. Y, dado el tamaño de la muestra, MCAR es bastante improbable de todos modos.
Tim
1
Si la matriz no es positiva-definida, es una estimación inválida. Al menos tenemos que preocuparnos por esa inconsistencia. Me temo que no veo cómo la probabilidad de MCAR (que es un mecanismo de falta) podría estar relacionada con el tamaño de la muestra.
whuber
El autor de la pregunta está interesado en una sola fila de la matriz de correlación. ¿Tiene una prueba que muestre que las correlaciones de una fila no son válidas si la matriz no es positiva-definida? Me encantaría ver una prueba de esto y ganar algo de sabiduría. MCAR es, en general, bastante improbable con datos del mundo real. Con un gran tamaño de muestra, el poder de la prueba de Little aumenta, por lo que hay una buena posibilidad de rechazo de la hipótesis nula de MCAR. No me malinterpreten aquí: nunca usaría una matriz de correlación de datos parciales como entrada en un método multivariante, pero esta no es la pregunta que se hace.
Tim
1
Permítanme aclarar: no afirmé que las correlaciones son "todas inválidas". Afirmé que la recopilación de estimaciones de correlación (es decir, la matriz) puede ser inválida. Eso es indiscutible (no requiere pruebas), porque todo lo que uno necesita hacer es exhibir una instancia de una estimación inválida, lo que @RoseHartman ya ha hecho en este hilo. No cuestionaré su afirmación de que MCAR podría ser improbable, siempre que se entienda en un sentido personal: en su experiencia, con los tipos de datos con los que está familiarizado, MCAR es raro. No veo cómo puede justificar una interpretación más amplia de esa afirmación.
whuber