Recibí una revisión de mi trabajo de investigación recientemente y el siguiente es el comentario del revisor sobre mi trabajo:
Los resultados obtenidos de un modelo no son del todo convincentes, especialmente la regresión lineal generalmente tiene deficiencias en el tratamiento de los valores atípicos. Sugiero que los autores también intenten la regresión logística y comparen los resultados correspondientes con los resultados actuales. Si se obtienen observaciones similares, los resultados serían más sólidos.
¿Es correcto el comentario del revisor? ¿Es la regresión logística mejor que la regresión lineal múltiple?
El problema es que mi variable dependiente no es categórica, es una variable de escala. ¿Qué puedo hacer ahora? ¿Qué otro método de regresión me recomiendan para evaluar mi modelo?
La puntuación es una variable dependiente en la siguiente tabla. La actualidad, la frecuencia, la tenencia y el último puntaje son variables independientes.
Extraje estas variables de un sitio y supongo que estas variables independientes tienen un efecto significativo en la puntuación . Por lo tanto, represento los siguientes modelos:
¡Por cierto, el valor de R al cuadrado para este modelo lineal es 0.316! El revisor también comentó sobre este valor también:
entonces los resultados no son convincentes ya que no hay un indicador sobre la calidad de los coeficientes aprendidos. Un R ^ 2 pequeño no puede indicar un buen rendimiento ya que el modelo puede estar sobreajustado.
¿0.316 es muy bajo para R al cuadrado? En documentos anteriores vi mucho los valores similares.
Respuestas:
orm
rms
fuente
También puede probar los modelos probit / logit ordenados asignando valores 1, 2,3 y 4 a las puntuaciones en los percentiles primero, ..... cuarto respectivamente.
fuente
Podría dicotomizar (convertir a una variable binaria) la puntuación. Si el puntaje es de 0 a 100, puede asignar 0 a cualquier puntaje menor que 50 y 1 de lo contrario. Sin embargo, nunca antes había escuchado que esta sea una buena manera de lidiar con los valores atípicos. Esto podría ocultar valores atípicos, ya que será imposible distinguir puntajes muy altos o bajos. Esto no tiene mucho sentido para mí, pero puedes intentarlo.
No voy a fingir que sé mucho sobre estadísticas, pero me parece, según sus comentarios, que este revisor podría saber aún menos.
fuente
Es posible aplicar regresión logística incluso a una variable dependiente contigua. Tiene sentido, si quieres asegurarte de que la predicción
score
esté siempre dentro[0, 100]
(juzgo por tus capturas de pantalla que está en una escala de 100 puntos).Para lograrlo, simplemente dividir su puntuación de 100, y ejecutar la regresión logística con este
[0,1]
- variable de destino basada, al igual que en esta pregunta - puede hacerlo, por ejemplo, conR
, el uso defuente