La regresión beta (es decir, GLM con distribución beta y generalmente la función de enlace logit) a menudo se recomienda para tratar la respuesta, también conocida como variable dependiente que toma valores entre 0 y 1, como fracciones, razones o probabilidades: regresión para un resultado (relación o fracción) entre 0 y 1 .
Sin embargo, siempre se afirma que la regresión beta no se puede usar tan pronto como la variable de respuesta sea igual a 0 o 1 al menos una vez. Si lo hace, uno necesita usar el modelo beta inflado cero / uno, o hacer alguna transformación de la respuesta, etc.: Regresión beta de los datos de proporción que incluyen 1 y 0 .
Mi pregunta es: ¿qué propiedad de la distribución beta evita que la regresión beta trate con 0s y 1s exactos, y por qué?
Supongo que es que y no son compatibles con la distribución beta. Pero para todos los parámetros de forma y , tanto cero como uno son compatibles con la distribución beta, es solo para parámetros de forma más pequeños que la distribución llega al infinito en uno o ambos lados. Y quizás los datos de la muestra sean tales que y proporcionen el mejor ajuste resultaría estar por encima de .
¿Significa que en algunos casos se podría utilizar la regresión beta incluso con ceros / unos?
Por supuesto, incluso cuando 0 y 1 son compatibles con la distribución beta, la probabilidad de observar exactamente 0 o 1 es cero. Pero también lo es la probabilidad de observar cualquier otro conjunto de valores contables, por lo que esto no puede ser un problema, ¿verdad? (Cf. este comentario de @Glen_b).
En el contexto de la regresión beta, la distribución beta se parametriza de manera diferente, pero con aún debería estar bien definida en para todo .
fuente
Respuestas:
Debido a que la verosimilitud contiene y log ( 1 - x ) , que son ilimitados cuando x = 0 o x = 1 . Consulte la ecuación (4) de Smithson & Verkuilen, "¿ Un mejor exprimidor de limón? Regresión de máxima probabilidad con variables dependientes distribuidas en beta " (enlace directo a PDF ).log(x) log(1−x) x=0 x=1
fuente
Además del hecho de que la razón viene en la práctica de la presencia de y l o g ( 1 - x ) , intentaré complementar la respuesta a la pregunta tratando de enmarcar la razón subyacente de por qué sucede esto.log(x) log(1−x)
de hecho, la distribución beta "se usa a menudo para describir la distribución de un valor de probabilidad" ( wikipedia ). Es la distribución de las posibles tendencias de una distribución binomial, conociendo la observación de N sorteos binarios independientes de una variable aleatoria.p N
Como resultado, en mi entendimiento de la regresión beta, 0s y 1s corresponderían intuitivamente a resultados seguros (infinitos).
fuente