Estoy viendo algunos problemas de regresión logística. ("regular" y "condicional").
Idealmente, me gustaría ponderar cada uno de los casos de entrada para que la glm se centre más en predecir correctamente los casos con mayor ponderación a expensas de posiblemente clasificar erróneamente los casos con menor ponderación.
Seguramente esto ya se ha hecho antes. ¿Alguien puede señalarme alguna literatura relevante (O posiblemente sugerir una función de probabilidad modificada).
¡Gracias!
Respuestas:
glm
contiene un parámetroweights
exactamente para este propósito. Le proporciona un vector de números en cualquier escala, que contiene el mismo número de pesos que tiene observaciones.Solo ahora me doy cuenta de que tal vez no estés hablando
R
. Si no, es posible que desee.fuente
glm
(probablemente) encontrar una implementación en C.Si tiene acceso a SAS, esto se logra muy fácilmente usando PROC GENMOD. Siempre que cada observación tenga una variable de peso, el uso de la declaración de peso le permitirá realizar el tipo de análisis que está buscando. Principalmente lo he usado usando ponderaciones de probabilidad de tratamiento inversa, pero no veo ninguna razón por la que no pueda asignar ponderaciones a sus datos para enfatizar ciertos tipos de casos, siempre y cuando se asegure de que su N permanezca constante. También querrá asegurarse de incluir algún tipo de variable de ID, porque técnicamente los casos ponderados son observaciones repetidas. Código de ejemplo, con un ID de observación de 'id' y una variable de peso de 'wt':
fuente