Tengo este gran conjunto de datos con 2500 variables y 142 observaciones.
Quiero ejecutar una correlación entre la Variable X y el resto de las variables. Pero para muchas columnas, faltan entradas.
Traté de hacer esto en R usando el argumento "pairwise-complete" ( use=pairwise.complete.obs
) y arrojó un montón de correlaciones. Pero alguien en StackOverflow publicó un enlace a este artículo http://bwlewis.github.io/covar/missing.html y hace que el método "pairwise-complete" en R parezca inutilizable.
Mi pregunta: ¿Cómo sé cuándo es apropiado usar la opción "completar en pares"?
Mi use = complete.obs
devuelto no complete element pairs
, por lo que si podía explicar lo que eso significa también, que sería grande.
r
correlation
missing-data
correlation-matrix
Stan Shunpike
fuente
fuente
Respuestas:
El problema con las correlaciones en las observaciones completas por pares
En el caso que describa, el problema principal es la interpretación. Debido a que está utilizando observaciones completas por pares, en realidad está analizando conjuntos de datos ligeramente diferentes para cada una de las correlaciones, según las observaciones que faltan.
Considere el siguiente ejemplo:
Tres variables en el conjunto de datos,
a
,b
, yc
, cada uno tiene algunos valores que faltan. Si calcula las correlaciones en pares de variables aquí, solo podrá usar casos que no tengan valores faltantes para ambas variables en cuestión. En este caso, eso significa que analizará solo los últimos 3 casos para la correlación entrea
yb
, solo los primeros tres casos para la correlación entreb
yc
, etc.El hecho de que esté analizando casos completamente diferentes cuando calcula cada correlación significa que el patrón de correlaciones resultante puede parecer absurdo. Ver:
Esto parece una contradicción lógica ---
a
yb
están fuertemente correlacionados positivamente, yb
yc
también están fuertemente correlacionados positivamente, por lo que se puede esperara
yc
tener una correlación positiva también, pero en realidad hay una fuerte asociación en la dirección opuesta. Puedes ver por qué a muchos analistas no les gusta eso.Edite para incluir aclaraciones útiles de whuber:
Tenga en cuenta que parte del argumento depende de lo que pueda significar una correlación "fuerte". Es bastante posible que
a
yb
así comob
yc
estén "fuertemente correlacionados positivamente" mientras exista una "fuerte asociación en la dirección opuesta" entrea
yc
, pero no tan extrema como en este ejemplo. El quid de la cuestión es que la matriz de correlación (o covarianza) estimada podría no ser positiva definida: así es como se debe cuantificar "fuerte".El problema con el tipo de falta
Puede estar pensando: "Bueno, ¿no está bien asumir que el subconjunto de casos que tengo disponible para cada correlación sigue más o menos el mismo patrón que obtendría si tuviera datos completos?" Y sí, eso es cierto: no hay nada fundamentalmente malo en calcular una correlación en un subconjunto de sus datos (aunque pierde precisión y potencia, por supuesto, debido al tamaño de muestra más pequeño), siempre que los datos disponibles sean aleatorios muestra de todos los datos que habrían estado allí si no tuviera ninguna falta.
Cuando la falta es puramente aleatoria, eso se llama MCAR (falta completamente al azar). En ese caso, analizar el subconjunto de los datos que no faltan no sesgará sistemáticamente sus resultados, y sería poco probable (pero no imposible) obtener el tipo de patrón de correlación loco que mostré en el ejemplo anterior.
Cuando su falta es sistemática de alguna manera (a menudo abreviada MAR o NI, delineando dos tipos diferentes de falta sistemática), entonces tiene problemas mucho más serios, tanto en términos de introducir sesgos potenciales en sus cálculos como en términos de su capacidad para generalizar su resultados para la población de interés (porque la muestra que está analizando no es una muestra aleatoria de la población, incluso si su conjunto de datos completo lo hubiera sido).
Hay un montón de grandes recursos disponibles para aprender acerca de los datos que faltan y cómo tratar con él, pero mi recomendación es Rubin: un clásico , y un artículo más reciente
fuente
Una gran preocupación es si faltan datos de alguna manera sistemática que corrompería su análisis. Sus datos pueden faltar no al azar.
Esto se mencionó en respuestas anteriores, pero pensé que contribuiría con un ejemplo.
Ejemplo financiero: los retornos faltantes pueden ser malos retornos
No todo se pierde necesariamente en estas situaciones (hay cosas que puede hacer), pero ejecutar ingenuamente una regresión (o correlaciones informáticas) en los datos que no faltan puede conducir a estimaciones inconsistentes y seriamente sesgadas de los parámetros verdaderos en la población.
fuente
La correlación por pares es apropiada si los datos que faltan faltan completos al azar (MCAR). El libro de datos perdidos de Paul Allison es un buen lugar para comenzar por qué.
Puede probar esto usando la prueba MCAR de Little (1988), que se encuentra en el
BaylorEdPsych
paquete.fuente