Uso de regresión logística para una variable dependiente continua

9

Recibí una revisión de mi trabajo de investigación recientemente y el siguiente es el comentario del revisor sobre mi trabajo:

Los resultados obtenidos de un modelo no son del todo convincentes, especialmente la regresión lineal generalmente tiene deficiencias en el tratamiento de los valores atípicos. Sugiero que los autores también intenten la regresión logística y comparen los resultados correspondientes con los resultados actuales. Si se obtienen observaciones similares, los resultados serían más sólidos.

¿Es correcto el comentario del revisor? ¿Es la regresión logística mejor que la regresión lineal múltiple?

El problema es que mi variable dependiente no es categórica, es una variable de escala. ¿Qué puedo hacer ahora? ¿Qué otro método de regresión me recomiendan para evaluar mi modelo?

La puntuación es una variable dependiente en la siguiente tabla. La actualidad, la frecuencia, la tenencia y el último puntaje son variables independientes.

ingrese la descripción de la imagen aquí

Extraje estas variables de un sitio y supongo que estas variables independientes tienen un efecto significativo en la puntuación . Por lo tanto, represento los siguientes modelos:

ingrese la descripción de la imagen aquí


¡Por cierto, el valor de R al cuadrado para este modelo lineal es 0.316! El revisor también comentó sobre este valor también:

entonces los resultados no son convincentes ya que no hay un indicador sobre la calidad de los coeficientes aprendidos. Un R ^ 2 pequeño no puede indicar un buen rendimiento ya que el modelo puede estar sobreajustado.

¿0.316 es muy bajo para R al cuadrado? En documentos anteriores vi mucho los valores similares.

ingrese la descripción de la imagen aquí

PSS
fuente
Este es un punto menor, pero comprender cómo se calcula el puntaje puede ser útil para proporcionar buenas respuestas. ¿Podría editar su pregunta para informarnos sobre eso?
whuber
Edito mi publicación. Mi conocimiento estadístico no es bueno. Estaría muy agradecido si me ayudas.
PSS
1
¿No hay idea de cómo ejecutar la regresión logística en una variable dependiente continua?
PSS
1
¿Es el puntaje algo que tiene que estar entre 0 y 100? En ese caso, podría dividir por 100 y hacer una regresión logística en la variable resultante, que siempre estaría entre 0 y 1 ... se siente un poco extraño hacer las cosas de esa manera, y no estoy seguro de lo sensible que es, pero tal vez eso es lo que sugiere el crítico?
Sam Livingstone
2
No, escalar a 0-1 o descartar información valiosa y clasificar el puntaje no son buenas soluciones.
Frank Harrell el

Respuestas:

7

Yormrms

Frank Harrell
fuente
Instalé R y todos los paquetes necesarios. ¿podría proporcionar algún ejemplo para la función orm? No encontré buscando. Para mi modelo de regresión, ¿cuál debería ser el código?
PSS
1
Y
1

También puede probar los modelos probit / logit ordenados asignando valores 1, 2,3 y 4 a las puntuaciones en los percentiles primero, ..... cuarto respectivamente.

usuario36853
fuente
¿Qué variable propone reducir a sus cuatro percentiles más bajos (de 100)? ¿Qué lograría esto y por qué?
whuber
-1

Podría dicotomizar (convertir a una variable binaria) la puntuación. Si el puntaje es de 0 a 100, puede asignar 0 a cualquier puntaje menor que 50 y 1 de lo contrario. Sin embargo, nunca antes había escuchado que esta sea una buena manera de lidiar con los valores atípicos. Esto podría ocultar valores atípicos, ya que será imposible distinguir puntajes muy altos o bajos. Esto no tiene mucho sentido para mí, pero puedes intentarlo.

βR2

R2R2

No voy a fingir que sé mucho sobre estadísticas, pero me parece, según sus comentarios, que este revisor podría saber aún menos.

pontikos
fuente
Muchas gracias por tu respuesta. Debido a que todas las variables están sesgadas, las tengo transformadas de registro natural. Estoy en lo cierto? ¡Gracias por aclarar lo que significa "sobreajuste"! En realidad, no sabía lo que significa sobreajustar. Ahora puedo responder al revisor y al editor. Por cierto, ¿cuál es su recomendación para que haga mi evaluación más sólida? ¿Qué método de regresión crees que es mejor?
PSS
66
Y
Estoy de acuerdo con @FrankHarrell en que elegir un umbral arbitrario para dicotomizar sus datos no tiene ningún sentido. ¿Es este su conjunto de datos completo? Si tiene tan pocas observaciones, sus datos nunca se verán distribuidos normalmente. También debe comprender el tipo de datos con los que está tratando también. ¿Qué rango de valores pueden tomar? ¿Es sensato suponer que deberían distribuirse normalmente? Voy a analizar la sugerencia de Frank de utilizar la regresión logística ordinal, pero supongo que utiliza el orden de las puntuaciones en lugar de su valor en la regresión.
pontikos
@PotentialScientist, no importa si sus distribuciones están sesgadas. En la regresión OLS (típica), solo importa la distribución de los residuos, ver aquí: qué-si-los-residuos-están-normalmente-distribuidos-pero-y-no son . Es posible que también desee leer esto: interpretación-de-registro-transformador-predictor , para comprender lo que le sucedió a su modelo como resultado de la transformación de sus predictores.
gung - Restablece a Monica
@PotentialScientist, ¿cómo te va? Si edita su pregunta para proporcionar los datos en formato CSV, puedo intentar ejecutar la función orm sugerida por el profesor Harrell y podemos analizar el resultado. Vale la pena que aprenda los conceptos básicos de R (cómo leer en un archivo y ejecutar una regresión).
pontikos
-1

Es posible aplicar regresión logística incluso a una variable dependiente contigua. Tiene sentido, si quieres asegurarte de que la predicción scoreesté siempre dentro [0, 100](juzgo por tus capturas de pantalla que está en una escala de 100 puntos).

Para lograrlo, simplemente dividir su puntuación de 100, y ejecutar la regresión logística con este [0,1]- variable de destino basada, al igual que en esta pregunta - puede hacerlo, por ejemplo, con R, el uso de

glm(y~x, family="binomial", data=your.dataframe)

R2

R20,3R2R2

David Dale
fuente