Estoy tratando de entender cómo la regresión logística utiliza la distribución binomial.
Digamos que estoy estudiando el éxito del nido en las aves. La probabilidad de que un nido sea exitoso es 0.6. Usando la distribución binomial, puedo calcular la probabilidad de r éxitos dados n ensayos (número de nidos estudiados).
Pero, ¿cómo se usa la distribución binomial en un contexto de modelado? Digamos que quiero saber cómo la temperatura diaria promedio afecta el éxito del nido y uso la regresión logística para explorar esta pregunta.
Dentro del contexto que describí, ¿cómo usa la regresión logística la distribución binomial?
Estoy buscando una respuesta intuitiva, ¡por lo tanto, una respuesta sin ecuaciones! Creo que las ecuaciones solo son útiles una vez que se ha logrado la comprensión a un nivel intuitivo.
Respuestas:
Suponga que observa varios nidos a diferentes temperaturas medias diarias . ¿Cómo depende la probabilidad π ( t ) del éxito del nido de la temperatura t ? (Si los nidos son independientes, el número de nidos con éxito a la temperatura t se distribuye binomialmente con n igual al número de nidos observados y la probabilidad de éxito π ( t )) .t π(t) t t n π(t)
La regresión logística es un enfoque (usando la función logística) de especificar la probabilidad de éxito como una función de la temperatura a través del estiramiento y el desplazamiento de la curva logística, con la cantidad de estiramiento y desplazamiento necesarios para estimarse a partir de los datos.
fuente
Sin ecuaciones? Yikes Veamos:
El modelo de regresión logística es literalmente un modelo para el parámetrop de una distribución binomial; Con un predictor continuo, cada punto puede tener su propia distribución. (En los casos en que las observaciones son 0-1, tratamos el caso especial de Bernoulli; esta es una situación común).
Eln es dado, no modelado. Entonces, el resultado es que, con un modelo que relaciona los pi 's y un ni conocido , podemos modelar datos binomiales en términos de un predictor que describa la media (y la varianza) a través de su modelo para p . El modelo puede ajustarse mediante la estimación de máxima verosimilitud, pero debido a su forma especial (familia exponencial), ML es relativamente "agradable".
Debido a que el enlace logístico es canónico para la familia binomial, es aún más agradable, ya que las estadísticas suficientes son de forma muy simple; esto lo hace conveniente para tratar con grandes muestras, o incluso para desarrollar algoritmos 'en línea'.
Con la regresión logística, esa curva (la función de enlace) es una función logística. Son posibles otras funciones, y muchos paquetes implementan varios (R tiene tres adecuados incorporados en su
glm
funcionalidad si no recuerdo mal).Ningún símbolo de igualdad fue dañado en la realización de esta publicación.
fuente
Su modelo asume que el éxito de un nido puede verse como una apuesta: Dios lanza una moneda cargada con lados etiquetados como "éxito" y "fracaso". El resultado del lanzamiento de un nido es independiente del resultado del lanzamiento de cualquier otro nido.
Sin embargo, las aves sí tienen algo que hacer: la moneda podría favorecer en gran medida el éxito a algunas temperaturas en comparación con otras. Por lo tanto, cuando tiene la oportunidad de observar nidos a una temperatura dada, el número de éxitos es igual al número de lanzamientos exitosos de la misma moneda, el de esa temperatura. La distribución binomial correspondiente describe las posibilidades de éxito. Es decir, establece la probabilidad de cero éxitos, de uno, de dos, ... y así sucesivamente a través del número de nidos.
Una estimación razonable de la relación entre la temperatura y cómo Dios carga las monedas está dada por la proporción de éxitos observados a esa temperatura. Esta es la estimación de máxima verosimilitud (MLE).
La fila superior de la figura muestra los MLE en cada una de las cuatro temperaturas observadas. La curva roja en el panel "Ajustar" traza cómo se carga la moneda, dependiendo de la temperatura. Por construcción, esta traza pasa a través de cada uno de los puntos de datos. (Se desconoce qué hace a temperaturas intermedias; he conectado crudamente los valores para enfatizar este punto).
Este modelo "saturado" no es muy útil, precisamente porque no nos da una base para estimar cómo Dios cargará las monedas a temperaturas intermedias. Para hacer eso, debemos suponer que hay algún tipo de curva de "tendencia" que relaciona las cargas de monedas con la temperatura.
La fila inferior de la figura se ajusta a esa tendencia. La tendencia es limitada en lo que puede hacer: cuando se traza en coordenadas apropiadas ("probabilidades de registro"), como se muestra en los paneles de "Respuesta de Logit" a la izquierda, solo puede seguir una línea recta. Cualquiera de estas líneas rectas determina la carga de la moneda a todas las temperaturas, como se muestra en la línea curva correspondiente en los paneles "Ajustar". Esa carga, a su vez, determina las distribuciones binomiales a todas las temperaturas. La fila inferior traza esas distribuciones para las temperaturas donde se observaron los nidos. (Las líneas negras discontinuas marcan los valores esperados de las distribuciones, lo que ayuda a identificarlas con bastante precisión. No ve esas líneas en la fila superior de la figura porque coinciden con los segmentos rojos).
Ahora se debe hacer una compensación: la línea puede pasar de cerca a algunos de los puntos de datos, solo para alejarse de otros. Esto hace que la distribución binomial correspondiente asigne probabilidades más bajas a la mayoría de los valores observados que antes. Puede ver esto claramente a 10 grados y 15 grados: la probabilidad de los valores observados no es la probabilidad más alta posible, ni está cerca de los valores asignados en la fila superior.
La regresión logística desliza y mueve las posibles líneas (en el sistema de coordenadas utilizado por los paneles "Logit Response"), convierte sus alturas en probabilidades binomiales (los paneles "Fit"), evalúa las posibilidades asignadas a las observaciones (los cuatro paneles de la derecha) ), y elige la línea que ofrece la mejor combinación de esas posibilidades.
¿Qué es "mejor"? Simplemente que la probabilidad combinada de todos los datos es lo más grande posible. De esta manera, no se permite que ninguna probabilidad única (los segmentos rojos) sea realmente pequeña, pero generalmente la mayoría de las probabilidades no serán tan altas como en el modelo saturado.
Aquí hay una iteración de la búsqueda de regresión logística donde la línea se rotó hacia abajo:
Espero que esta discusión le haya ayudado a desarrollar una imagen mental de las probabilidades binomiales que cambian a medida que la línea varía, todo mientras mantiene los datos iguales. El ajuste de línea por regresión logística intenta hacer que esas barras rojas en general sean lo más altas posible. Por lo tanto, la relación entre la regresión logística y la familia de distribuciones binomiales es profunda e íntima.
Apéndice:
R
código para producir las figurasfuente