Interpretación de la salida de regresión logística en R

13

Estoy trabajando en una regresión logística múltiple en R usando glm. Las variables predictoras son continuas y categóricas. Un extracto del resumen del modelo muestra lo siguiente:

Coefficients:
               Estimate Std. Error z value Pr(>|z|)
(Intercept)   2.451e+00  2.439e+00   1.005   0.3150
Age           5.747e-02  3.466e-02   1.658   0.0973 .
BMI          -7.750e-02  7.090e-02  -1.093   0.2743
...
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Intervalos de confianza:

                  2.5 %       97.5 %
(Intercept)  0.10969506 1.863217e+03
Age          0.99565783 1.142627e+00
BMI          0.80089276 1.064256e+00
...

Razones impares:

                 Estimate Std. Error   z value Pr(>|z|)
(Intercept)  1.159642e+01  11.464683 2.7310435 1.370327
Age          1.059155e+00   1.035269 5.2491658 1.102195
B            9.254228e-01   1.073477 0.3351730 1.315670
...

AgeAgeAgeAge

SabreWolfy
fuente
8
Solo es significativo al nivel de confianza del 10%, pero los intervalos de confianza son del 5%.
Nick Sabbe
Entonces, ¿los intervalos de confianza para el 10% no incluirían 1?
SabreWolfy
El valor p (última columna, primera tabla) es la posibilidad de que se obtenga el resultado obtenido o peor si la hipótesis nula fuera cierta. El intervalo de confianza es una región que tendrá el valor verdadero, por ejemplo, en el 95% de las veces. Si no contiene el valor verdadero hipotético, entonces hay un 5% de posibilidades de que obtengamos el resultado obtenido o peor, si la hipótesis es cierta. Entonces esto implicaría que su valor p sea inferior al 5%. Existe una relación muy estrecha entre los valores de p y los intervalos de confianza (estadística 101). En resumen: sí, el IC del 10% incluirá 1.
Nick Sabbe
Parece que estás asumiendo linealidad. ¿Cómo se justifica eso?
Frank Harrell

Respuestas:

8

Hay una gran cantidad de preguntas aquí en el sitio que ayudarán con la interpretación de la salida de los modelos (aquí hay tres ejemplos diferentes, 1 2 3 , y estoy seguro de que hay más si profundiza en el archivo). Aquí también hay un tutorial en el sitio web de estadísticas de UCLA sobre cómo interpretar los coeficientes para la regresión logística.

Aunque la razón de posibilidades para el coeficiente de edad es cercana a uno, no necesariamente significa que el efecto sea pequeño (si un efecto es pequeño o grande es con frecuencia una cuestión normativa tanto como empírica). Sería necesario conocer la variación típica en la edad entre observaciones para hacer una opinión más informada.

Andy W
fuente
Gracias por el enlace al tutorial, que parece completo. Hice una búsqueda aquí antes de publicar mi pregunta. Los enlaces 1 y 3 parecen no estar relacionados con mi pregunta.
SabreWolfy
@SabreWolfy, el enlace 1 aclara aún más cómo interpretar los coeficientes en términos de las unidades originales, el enlace 3 describe los pasos para interpretar los efectos en términos de probabilidades (que es realmente aplicable a su pregunta, y las parcelas sugeridas en esa pregunta serían una respuesta razonable para mí diciendo que el tamaño del efecto directo es difícil de interpretar sin conocer la variación en la edad).
Andy W
55
(1.059301)×100%=458%
El enlace de UCLA está muerto, pero este probablemente corresponde (al menos su contenido me ayuda a entender esta pregunta).
MBR