Manejo de valores de 0,1 en una regresión beta

20

Tengo algunos datos en [0,1] que me gustaría analizar con una regresión beta. Por supuesto, hay que hacer algo para acomodar los valores de 0,1. No me gusta modificar los datos para que se ajusten a un modelo. Tampoco creo que la inflación cero y 1 sea una buena idea porque creo que en este caso uno debería considerar los 0 como valores positivos muy pequeños (pero no quiero decir exactamente qué valor es apropiado. Una elección razonable Creo que sería elegir valores pequeños como .001 y .999 y ajustar el modelo usando la dist acumulativa para la beta. Entonces, para las observaciones y_i, la probabilidad de registro LL_ sería

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Lo que me gusta de este modelo es que si el modelo de regresión beta es válido, este modelo también es válido, pero elimina un poco de la sensibilidad a los valores extremos. Sin embargo, este parece ser un enfoque tan natural que me pregunto por qué no encuentro referencias obvias en la literatura. Entonces mi pregunta es en lugar de modificar los datos, ¿por qué no modificar el modelo? La modificación de los datos sesga los resultados (en base al supuesto de que el modelo original es válido), mientras que la modificación del modelo combinando los valores extremos no sesga los resultados.

Tal vez hay un problema que estoy pasando por alto?

Dave Fournier
fuente
1
Realmente no es posible dar una buena respuesta a esta pregunta sin saber más sobre el problema en particular. La pregunta clave es si los ceros y unos exactos son generados por un proceso diferente al que genera los datos en (0,1). Un ejemplo clásico es la lluvia, donde hay ceros exactos que reflejan los días en que no llueve. ¿En su aplicación son ceros y unos "especiales" de alguna manera?
Dikran Marsupial
Relacionado / duplicado: stats.stackexchange.com/questions/48028 .
ameba dice Reinstate Monica

Respuestas:

16

Según este documento , una transformación apropiada es

x=x(N1)+sN

"donde N es el tamaño de la muestra y s es una constante entre 0 y 1. Desde un punto de vista bayesiano, s actúa como si estuviéramos teniendo en cuenta un previo. Una elección razonable para s sería .5".

Esto exprimirá los datos que se encuentran en para estar en ( 0 , 1 ) . La cita anterior y una razón matemática de la transformación están disponibles en las notas complementarias del artículo .[0,1](0,1)

Cam.Davidson.Pilon
fuente
1
+1 .. Pero, ¿podría arreglar el primer enlace o al menos citar el documento para que podamos encontrarlo de forma independiente?
whuber
1
Pero eso no responde a mi pregunta. Soy muy consciente de que uno puede transformar los datos. Mi pregunta es ¿por qué no transformar el modelo en su lugar?
Dave Fournier
1
Dave, edita tu pregunta para reflejar esto: actualmente, se lee como si estuvieras buscando una forma de transformar los datos . En el proceso, sería útil para usted indicar cuál cree que es la diferencia entre una transformación de datos y un cambio de modelo, porque si hay una, es sutil.
whuber
@davefournier, si lees los sitios de Cam en papel, en parte responde tu pregunta. También ofrecen recomendaciones de modelos alternativos (ver página 69), y parte de las recomendaciones dependen de la naturaleza de los datos. Su probabilidad ajustada se parece al "proceso mixto discreto-continuo" (mencionado al final de la página 69). También puede ser el caso de que el modelo de Tobit sea satisfactorio dados sus datos, aunque sería mejor ver otras referencias para la adecuación del modelo de Tobit, como el libro de Scott Long sobre regresión categórica.
Andy W
1
Pero no toman este enfoque. Proponen un modelo diferente, un proceso continuo discreto mixto. Eso es muy diferente de agrupar los valores extremos. Como dije antes, si el modelo beta es válido, entonces el modelo binning es válido. Si el modelo continuo discreto es válido, el modelo beta no es válido. Sospecho que en su análisis se basaron principalmente en los tipos de modelos mixtos que podrían encajar con su software. El modelo mixto beta binned es un poco más difícil de ajustar.
Dave Fournier
3

Dave

Un enfoque común para este problema es ajustar 2 modelos de regresión logística para predecir si un caso es 0 o 1. Luego, se usa una regresión beta para aquellos en el rango (0,1).

B_Miner
fuente
¿Podría dar un ejemplo? o un artículo discutiendo esto con más detalle?
user1607
2

(log(x),log(1x))

x(x,x2)

Creo que ambos se estiman fácilmente de forma bayesiana, ya que ambos son familias exponenciales. Esta es una modificación del modelo como esperabas.

Neil G
fuente
1

Creo que la respuesta "correcta" real a esta pregunta es la regresión beta inflada cero a uno. Esto está diseñado para manejar datos que varían continuamente en el intervalo [0,1] y permite que haya muchos 0 y 1 reales en los datos. Este enfoque se ajusta a tres modelos separados en un contexto bayesiano, similar a lo que propuso @B_Miner.

Modelo 1: ¿Es un valor un 0/1 discreto, o el valor está en (0,1)? Ajuste con una distribución bernoulli.

Modelo 2: ajuste discreto subconjunto con una distribución bernoulli.

Modelo 3: Subconjunto Fit (0,1) con regresión beta.

Para la predicción, los resultados del primer modelo pueden usarse para ponderar las predicciones de los modelos 2 y 3. Esto puede implementarse dentro del zoibpaquete R, o elaborarse en casa en BUGS / JAGS / STAN / etc.

colin
fuente