¿Por qué exactamente la regresión beta no puede tratar con 0s y 1s en la variable de respuesta?

17

La regresión beta (es decir, GLM con distribución beta y generalmente la función de enlace logit) a menudo se recomienda para tratar la respuesta, también conocida como variable dependiente que toma valores entre 0 y 1, como fracciones, razones o probabilidades: regresión para un resultado (relación o fracción) entre 0 y 1 .

Sin embargo, siempre se afirma que la regresión beta no se puede usar tan pronto como la variable de respuesta sea igual a 0 o 1 al menos una vez. Si lo hace, uno necesita usar el modelo beta inflado cero / uno, o hacer alguna transformación de la respuesta, etc.: Regresión beta de los datos de proporción que incluyen 1 y 0 .

Mi pregunta es: ¿qué propiedad de la distribución beta evita que la regresión beta trate con 0s y 1s exactos, y por qué?

Supongo que es que y no son compatibles con la distribución beta. Pero para todos los parámetros de forma y , tanto cero como uno son compatibles con la distribución beta, es solo para parámetros de forma más pequeños que la distribución llega al infinito en uno o ambos lados. Y quizás los datos de la muestra sean tales que y proporcionen el mejor ajuste resultaría estar por encima de .01α>1β>1αβ1

¿Significa que en algunos casos se podría utilizar la regresión beta incluso con ceros / unos?

Por supuesto, incluso cuando 0 y 1 son compatibles con la distribución beta, la probabilidad de observar exactamente 0 o 1 es cero. Pero también lo es la probabilidad de observar cualquier otro conjunto de valores contables, por lo que esto no puede ser un problema, ¿verdad? (Cf. este comentario de @Glen_b).

distribución beta

En el contexto de la regresión beta, la distribución beta se parametriza de manera diferente, pero con aún debería estar bien definida en para todo .ϕ=α+β>2[0,1]μ

ingrese la descripción de la imagen aquí

ameba dice Reinstate Monica
fuente
2
¡Interesante pregunta! No tengo ninguna respuesta además de los puntos ya formulados por Kevin Wright. Supongo que los ceros exactos y los de probabilidades son casos patológicos (como en la regresión logística), por lo que no son tan interesantes ya que no deberían suceder.
Tim
1
@Tim Bueno, no sé si se debe o no debe suceder, pero no ocurrirá muy a menudo, de lo contrario la gente no hacer preguntas sobre cómo tratar con 0 y 1 en la regresión beta, haría documentos no escribir sobre 0- y-1 infló modelos beta, etc. De todos modos, todavía espero una respuesta más detallada que la de Kevin. Al menos uno debería explicar cómo surgen estos términos en la probabilidad de registro.
ameba dice Reinstate Monica
1
Actualización: probablemente sea porque si 0 y 1 están en el soporte, entonces PDF en estos puntos es igual a cero, lo que significa que la probabilidad de observar estos valores es cero. Todavía me gustaría ver una respuesta que explique esto cuidadosamente.
ameba dice Reinstate Monica
Entonces, ¿qué distribución se debe usar cuando la variable de respuesta asume valores en, digamos, ? [0,)
Confundido el

Respuestas:

16

Debido a que la verosimilitud contiene y log ( 1 - x ) , que son ilimitados cuando x = 0 o x = 1 . Consulte la ecuación (4) de Smithson & Verkuilen, "¿ Un mejor exprimidor de limón? Regresión de máxima probabilidad con variables dependientes distribuidas en beta " (enlace directo a PDF ).log(x)log(1x)x=0x=1

Kevin Wright
fuente
3
Gracias. Aquí está el enlace PDF directo al documento . Puedo ver que la ecuación. (4) se desglosará en cuanto o y i = 1 , pero todavía no entiendo por qué sucede esto en el esquema general de las cosas. yi=0yi=1
ameba dice Reinstate Monica
3
(+1) Amoeba, solo mire el pdf: para cada distribución Beta, las densidades en y 1 son 0 o + . En cualquier caso, la probabilidad de registro será indefinida. De manera equivalente, tan pronto como haya una sola respuesta 0 o 1 , todos los valores de la probabilidad pueden ser solo cero, infinito o indeterminados y habrá un conjunto no trivial de parámetros Beta para los cuales se realiza el valor mínimo de la probabilidad. Por lo tanto, se excluye el cálculo práctico y el modelo no es identificable (en un sentido severo). 010+01
whuber
1
Junto con el comentario de @ whuber (que no noté hasta ahora), esto responde la pregunta. El punto principal es que para los valores de parámetros sobre los que estaba preguntando, y 1 tienen probabilidad cero. 01
ameba dice Reinstate Monica
1
@whuber La razón por la que me confundí es que hay probabilidad cero de observar pero también hay probabilidad cero de observar, digamos 0.5 (tomemos beta con α = β = 2 para concreción). Sin embargo, 0.5 es consistente con el modelo, pero 0 no lo es, y es porque la probabilidad de observar 0.5 no es cero, pero la probabilidad de observar 0 es ...00.5α=β=20.500.50
amoeba dice Reinstate Monica
3
@amoeba La probabilidad depende de la densidad de probabilidad , no de la probabilidad misma. A veces, uno puede evitar este problema ya sea considerando cada observación para incluir la probabilidad de un intervalo pequeño pero finito (no infinitesimal) (determinado, por ejemplo , por la precisión de la medición) o mediante la convolución de las distribuciones Beta con un gaussiano muy estrecho ( que elimina las densidades cero e infinitas).
whuber
2

Además del hecho de que la razón viene en la práctica de la presencia de y l o g ( 1 - x ) , intentaré complementar la respuesta a la pregunta tratando de enmarcar la razón subyacente de por qué sucede esto.log(x)log(1x)

de hecho, la distribución beta "se usa a menudo para describir la distribución de un valor de probabilidad" ( wikipedia ). Es la distribución de las posibles tendencias de una distribución binomial, conociendo la observación de N sorteos binarios independientes de una variable aleatoria.pN

Como resultado, en mi entendimiento de la regresión beta, 0s y 1s corresponderían intuitivamente a resultados seguros (infinitos).

Meduz
fuente