Tengo algunos datos en [0,1] que me gustaría analizar con una regresión beta. Por supuesto, hay que hacer algo para acomodar los valores de 0,1. No me gusta modificar los datos para que se ajusten a un modelo. Tampoco creo que la inflación cero y 1 sea una buena idea porque creo que en este caso uno debería considerar los 0 como valores positivos muy pequeños (pero no quiero decir exactamente qué valor es apropiado. Una elección razonable Creo que sería elegir valores pequeños como .001 y .999 y ajustar el modelo usando la dist acumulativa para la beta. Entonces, para las observaciones y_i, la probabilidad de registro LL_ sería
if y_i < .001 LL+=log(cumd_beta(.001))
else if y_i>.999 LL+=log(1.0-cum_beta(.999))
else LL+=log(beta_density(y_i))
Lo que me gusta de este modelo es que si el modelo de regresión beta es válido, este modelo también es válido, pero elimina un poco de la sensibilidad a los valores extremos. Sin embargo, este parece ser un enfoque tan natural que me pregunto por qué no encuentro referencias obvias en la literatura. Entonces mi pregunta es en lugar de modificar los datos, ¿por qué no modificar el modelo? La modificación de los datos sesga los resultados (en base al supuesto de que el modelo original es válido), mientras que la modificación del modelo combinando los valores extremos no sesga los resultados.
Tal vez hay un problema que estoy pasando por alto?
Respuestas:
Según este documento , una transformación apropiada es
Esto exprimirá los datos que se encuentran en para estar en ( 0 , 1 ) . La cita anterior y una razón matemática de la transformación están disponibles en las notas complementarias del artículo .[ 0 , 1 ] ( 0 , 1 )
fuente
Dave
Un enfoque común para este problema es ajustar 2 modelos de regresión logística para predecir si un caso es 0 o 1. Luego, se usa una regresión beta para aquellos en el rango (0,1).
fuente
Creo que ambos se estiman fácilmente de forma bayesiana, ya que ambos son familias exponenciales. Esta es una modificación del modelo como esperabas.
fuente
Creo que la respuesta "correcta" real a esta pregunta es la regresión beta inflada cero a uno. Esto está diseñado para manejar datos que varían continuamente en el intervalo [0,1] y permite que haya muchos 0 y 1 reales en los datos. Este enfoque se ajusta a tres modelos separados en un contexto bayesiano, similar a lo que propuso @B_Miner.
Modelo 1: ¿Es un valor un 0/1 discreto, o el valor está en (0,1)? Ajuste con una distribución bernoulli.
Modelo 2: ajuste discreto subconjunto con una distribución bernoulli.
Modelo 3: Subconjunto Fit (0,1) con regresión beta.
Para la predicción, los resultados del primer modelo pueden usarse para ponderar las predicciones de los modelos 2 y 3. Esto puede implementarse dentro del
zoib
paquete R, o elaborarse en casa en BUGS / JAGS / STAN / etc.fuente