Estoy usando Pyikon-scikit-learn para entrenar y probar una regresión logística.
scikit-learn devuelve los coeficientes de regresión de las variables independientes, pero no proporciona los errores estándar de los coeficientes. Necesito estos errores estándar para calcular una estadística de Wald para cada coeficiente y, a su vez, comparar estos coeficientes entre sí.
He encontrado una descripción de cómo calcular los errores estándar para los coeficientes de una regresión logística ( aquí ), pero es algo difícil de seguir.
Si conoce una explicación simple y sucinta de cómo calcular estos errores estándar y / o puede proporcionarme uno, ¡realmente lo agradecería! No me refiero a un código específico (aunque no dude en publicar cualquier código que pueda ser útil), sino más bien una explicación algorítmica de los pasos involucrados.
Respuestas:
¿Su software le proporciona una matriz de covarianza de parámetros (o varianza-covarianza)? Si es así, los errores estándar son la raíz cuadrada de la diagonal de esa matriz. Probablemente desee consultar un libro de texto (o google para notas de conferencias universitarias) sobre cómo obtener la matriz para modelos lineales y lineales generalizados.Vβ
fuente
Los errores estándar de los coeficientes del modelo son las raíces cuadradas de las entradas diagonales de la matriz de covarianza. Considera lo siguiente:
, dondexi,jes el valor dejEl predictor de lasobservacionesi.X = ⎡⎣⎢⎢⎢⎢⎢11⋮1X1 , 1X2 , 1⋮Xn , 1......⋱...X1 , pX2 , p⋮Xn , p⎤⎦⎥⎥⎥⎥⎥ Xi , j j yo
(NOTA: Esto supone un modelo con una intersección).
La matriz de covarianza se puede escribir como:
Esto se puede implementar con el siguiente código:
Dicho todo esto,
statsmodels
probablemente será un mejor paquete para usar si desea acceder a MUCHOS diagnósticos "listos para usar".fuente
V = np.product(predProbs, axis=1);
covLogit = np.linalg.pinv(np.dot(X_design.T * V), X_design)
Si estás interesado en hacer inferencia, entonces probablemente quieras echar un vistazo a los modelos de estadísticas . Los errores estándar y las pruebas estadísticas comunes están disponibles. Aquí hay un ejemplo de regresión logística .
fuente