Estoy tratando de encontrar la correlación entre una variable dicotómica y una variable continua.
De mi trabajo de base en esto, descubrí que tengo que usar una prueba t independiente y la condición previa para ello es que la distribución de la variable debe ser normal.
Realicé la prueba de Kolmogorov-Smirnov para probar la normalidad y descubrí que la variable continua no es normal y está sesgada (para aproximadamente 4,000 puntos de datos).
Hice la prueba de Kolmogorov-Smirnov para todo el rango de variables. ¿Debería dividirlos en grupos y hacer la prueba? Es decir, si tengo niveles de colesterol risk level
( 0
= no riesgoso, 1
= riesgoso) y colesterol, entonces debería:
Divídalos en dos grupos, como
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
¿Tómelos juntos y aplique la prueba? (Lo realicé solo en todo el conjunto de datos).
Después de eso, ¿qué prueba debo hacer si aún no es normal?
EDITAR: El escenario anterior fue solo una descripción que intenté proporcionar para mi problema. Tengo un conjunto de datos que contiene más de 1000 variables y alrededor de 4000 muestras. Son de naturaleza continua o categórica. Mi tarea es predecir una variable dicotómica basada en estas variables (tal vez proponer un modelo de regresión logística). Así que pensé que la investigación inicial implicaría encontrar la correlación entre una variable dicotómica y una variable continua.
Intenté ver cómo es la distribución de las variables y, por lo tanto, intenté ir a la prueba t. Aquí encontré la normalidad como un problema. La prueba de Kolmogorov-Smirnov dio un valor de significancia de 0.00 en la mayoría de estas variables.
¿Debo asumir la normalidad aquí? La asimetría y la curtosis de estas variables también muestran que los datos están sesgados (> 0) en casi todos los casos.
Según la nota que se proporciona a continuación, investigaré más a fondo la correlación punto-biserial. Pero sobre la distribución de variables todavía no estoy seguro.
Respuestas:
Estoy un poco confundido; su título dice "correlación" pero su publicación se refiere a pruebas t. Una prueba t es una prueba de ubicación central; más específicamente, ¿la media de un conjunto de datos es diferente de la media de otro conjunto? La correlación, por otro lado, muestra la relación entre dos variables. Hay una variedad de medidas de correlación, parece que la correlación punto-biserial es apropiada en su caso.
Tiene razón en que una prueba t supone normalidad; sin embargo, es probable que las pruebas de normalidad den resultados significativos incluso para las no normalidades triviales con un N de 4000. Las pruebas T son bastante robustas a las desviaciones moderadas de la normalidad si las variaciones de los dos conjuntos de datos son aproximadamente iguales y la muestra tamaños aproximadamente iguales. Pero una prueba no paramétrica es más robusta para los valores atípicos y la mayoría de ellos tienen una potencia casi tan alta como la prueba t, incluso si las distribuciones son normales.
Sin embargo, en su ejemplo, usa "colesterol" como riesgoso o no riesgoso. Es casi seguro que sea una mala idea. Dicotomizar una variable continua invoca el pensamiento mágico. Dice que, en algún momento, el colesterol pasa de "no riesgoso" a "riesgoso". Supongamos que usó 200 como punto de corte, entonces está diciendo que alguien con colesterol de 201 es como alguien con 400, y alguien con 199 es como alguien con 100. Esto no tiene sentido.
fuente
Simplifiquemos las cosas. Con N = 4,000 para el nivel de colesterol, no debería tener ningún problema con sus resultados sesgados por valores atípicos. Por lo tanto, puede usar la correlación en sí, como lo implica su oración inicial. Hará poca diferencia si evalúa la correlación mediante el método de Pearson, Spearman o Point-Biserial.
Si, en cambio, realmente necesita expresar los resultados en términos de la diferencia de colesterol típica entre los grupos de alto y bajo riesgo, la prueba U de Mann-Whitney está bien, pero también puede usar la prueba t más informativa . Con esta N (y de nuevo, con valores atípicos astronómicos, algo que sin duda puede descartar), no debe preocuparse de que la falta de normalidad comprometa sus resultados.
fuente