Correlación entre variable dicotómica y continua

10

Estoy tratando de encontrar la correlación entre una variable dicotómica y una variable continua.

De mi trabajo de base en esto, descubrí que tengo que usar una prueba t independiente y la condición previa para ello es que la distribución de la variable debe ser normal.

Realicé la prueba de Kolmogorov-Smirnov para probar la normalidad y descubrí que la variable continua no es normal y está sesgada (para aproximadamente 4,000 puntos de datos).

Hice la prueba de Kolmogorov-Smirnov para todo el rango de variables. ¿Debería dividirlos en grupos y hacer la prueba? Es decir, si tengo niveles de colesterol risk level( 0= no riesgoso, 1= riesgoso) y colesterol, entonces debería:

  • Divídalos en dos grupos, como

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • ¿Tómelos juntos y aplique la prueba? (Lo realicé solo en todo el conjunto de datos).

Después de eso, ¿qué prueba debo hacer si aún no es normal?

EDITAR: El escenario anterior fue solo una descripción que intenté proporcionar para mi problema. Tengo un conjunto de datos que contiene más de 1000 variables y alrededor de 4000 muestras. Son de naturaleza continua o categórica. Mi tarea es predecir una variable dicotómica basada en estas variables (tal vez proponer un modelo de regresión logística). Así que pensé que la investigación inicial implicaría encontrar la correlación entre una variable dicotómica y una variable continua.

Intenté ver cómo es la distribución de las variables y, por lo tanto, intenté ir a la prueba t. Aquí encontré la normalidad como un problema. La prueba de Kolmogorov-Smirnov dio un valor de significancia de 0.00 en la mayoría de estas variables.

¿Debo asumir la normalidad aquí? La asimetría y la curtosis de estas variables también muestran que los datos están sesgados (> 0) en casi todos los casos.

Según la nota que se proporciona a continuación, investigaré más a fondo la correlación punto-biserial. Pero sobre la distribución de variables todavía no estoy seguro.

Sree Aurovindh
fuente
1
La correlación (de cualquier tipo) entre una variable continua y una variable binaria (grupo) no es mucho más (y tal vez menos ...) que solo una comparación de medias (algún tipo de media ...) entre los grupos, por lo general ¡Debería ser mejor hacer eso!
kjetil b halvorsen

Respuestas:

14

Estoy un poco confundido; su título dice "correlación" pero su publicación se refiere a pruebas t. Una prueba t es una prueba de ubicación central; más específicamente, ¿la media de un conjunto de datos es diferente de la media de otro conjunto? La correlación, por otro lado, muestra la relación entre dos variables. Hay una variedad de medidas de correlación, parece que la correlación punto-biserial es apropiada en su caso.

Tiene razón en que una prueba t supone normalidad; sin embargo, es probable que las pruebas de normalidad den resultados significativos incluso para las no normalidades triviales con un N de 4000. Las pruebas T son bastante robustas a las desviaciones moderadas de la normalidad si las variaciones de los dos conjuntos de datos son aproximadamente iguales y la muestra tamaños aproximadamente iguales. Pero una prueba no paramétrica es más robusta para los valores atípicos y la mayoría de ellos tienen una potencia casi tan alta como la prueba t, incluso si las distribuciones son normales.

Sin embargo, en su ejemplo, usa "colesterol" como riesgoso o no riesgoso. Es casi seguro que sea una mala idea. Dicotomizar una variable continua invoca el pensamiento mágico. Dice que, en algún momento, el colesterol pasa de "no riesgoso" a "riesgoso". Supongamos que usó 200 como punto de corte, entonces está diciendo que alguien con colesterol de 201 es como alguien con 400, y alguien con 199 es como alguien con 100. Esto no tiene sentido.

Peter Flom - Restablece a Monica
fuente
2
Estoy de acuerdo, y creo que la mayoría de nosotros estamos de acuerdo, en que la dicotomización desperdicia información y que puede ser un método tosco, tosco o tosco. Simplemente creo que el argumento del "pensamiento mágico" se extralimita un poco. Elegir pasar por alto una diferencia no es lo mismo que creer que no hay diferencia. Espero que haya momentos en el futuro cuando considero conveniente y valioso el compromiso de hacer categorías de alguna variable continua, ya sea con fines analíticos o de informes. Solo mis 2 centavos.
rolando2
2
Hacer categorías a partir de variables continuas es peor que mágico. Diabólico puede ser una mejor palabra. Si desea maximizar la complejidad del modelo, aumentar el sesgo y aumentar la varianza, todo al mismo tiempo, la dicotomización es para usted. [Maximiza la complejidad porque la información perdida debido a la categorización requiere que se agreguen más variables al modelo para lograr el mismo ]R2
Frank Harrell,
6

Simplifiquemos las cosas. Con N = 4,000 para el nivel de colesterol, no debería tener ningún problema con sus resultados sesgados por valores atípicos. Por lo tanto, puede usar la correlación en sí, como lo implica su oración inicial. Hará poca diferencia si evalúa la correlación mediante el método de Pearson, Spearman o Point-Biserial.

Si, en cambio, realmente necesita expresar los resultados en términos de la diferencia de colesterol típica entre los grupos de alto y bajo riesgo, la prueba U de Mann-Whitney está bien, pero también puede usar la prueba t más informativa . Con esta N (y de nuevo, con valores atípicos astronómicos, algo que sin duda puede descartar), no debe preocuparse de que la falta de normalidad comprometa sus resultados.

rolando2
fuente
Gracias por su respuesta. Pero si tengo que saber sobre los valores atípicos hace una gran distorsión, ¿es correcto usar curtosis y asimetría para detectarlo? En caso de que esto sea cierto por encima de los valores de curtosis y asimetría, debería suponer que la distribución no es normal. Gracias por su respuesta
Sree Aurovindh
Supongo, en base al conocimiento limitado del contenido, que con el colesterol, no tendrá valores que sean muchos órdenes de magnitud más altos que los demás. Es por eso que creo que puede usar un método paramétrico como la correlación o una prueba t. No es que piense que la distribución es normal. No necesitas que sea normal. Por cierto, a la luz de la respuesta de Peter: creía (y espero) que tenías alguna fuente del estado de alto / bajo riesgo que era independiente de la puntuación de colesterol. Estoy de acuerdo en que probablemente no sea útil dicotomizar.
rolando2
2
¿Puedo sugerirle que agregue una sección a su pregunta original, marcada "EDITAR: ....", que explique qué preguntas quedan para usted que no han sido respondidas por las respuestas y comentarios que ha recibido hasta ahora.
rolando2
Gracias por su sugerencia. He actualizado la misma. Lo siento por una pregunta ambigua en primer lugar
Sree Aurovindh