Estoy tratando de producir un modelo para el que tengo una variable de respuesta que es una proporción entre 0 y 1, esto incluye bastantes 0s y 1s pero también muchos valores intermedios. Estoy pensando en intentar una regresión beta. El paquete que he encontrado para R (betareg) solo permite valores entre 0 y 1 pero no incluye 0 o 1 ellos mismos. He leído en otra parte que, en teoría, la distribución beta debería ser capaz de manejar valores de 0 o 1, pero no sé cómo manejar esto en RI, he visto a algunas personas agregar 0.001 a los ceros y tomar 0.001 de ellos, pero no soy Seguro que es una buena idea?
Alternativamente, podría logit transformar la variable de respuesta y usar regresión lineal. En este caso, tengo el mismo problema con los 0 y 1 que no se pueden transformar.
fuente
Respuestas:
Podría usar modelos de regresión beta inflados cero o uno que combinen la distribución beta con una distribución degenerada para asignar alguna probabilidad a 0 y 1 respectivamente. Para más detalles, consulte las siguientes referencias:
Ospina, R. y Ferrari, SLP (2010). Distribuciones beta infladas. Documentos estadísticos, 51 (1), 111-126. Ospina, R. y Ferrari, SLP (2012). Una clase general de modelos de regresión beta inflados cero o uno. Estadística computacional y análisis de datos, 56 (6), 1609-1623.
Estos modelos son fáciles de implementar con el paquete gamlss para R.
fuente
zoib
paquete lo hace fácilmente.La documentación para el
betareg
paquete R menciona quehttp://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf
Dan la referencia Smithson M, Verkuilen J (2006). "¿Un mejor exprimidor de limón? Regresión de máxima probabilidad con variables dependientes distribuidas en beta". Métodos psicológicos, 11 (1), 54-71.
fuente
¿No haces una transformación logit para hacer que la variable varíe de menos infinito a más infinito? No estoy seguro si los datos que tienen 0 y 1 deberían ser un problema. ¿Eso muestra algún mensaje de error? Por cierto, si solo tiene proporciones, su análisis siempre saldrá mal. Es necesario utilizar
weight=argument
paraglm
el número de casos.Si nada funciona, puede usar una división mediana o una división de cuartil o cualquier punto de corte que considere apropiado para dividir el DV en varias categorías y luego ejecutar una regresión logística ordinal. Eso puede funcionar. Prueba estas cosas.
Personalmente, no creo que agregar 0.001 a los ceros y quitar 0.001 sea una mala idea, pero tiene algunos problemas que se discutirán más adelante. Solo piense, ¿por qué no suma y resta 0.000000001 (o incluso más de los decimales)? ¡Eso representará mejor 0 y 1! Puede parecerle que no hace mucha diferencia. Pero en realidad lo hace.
Veamos lo siguiente:
Entonces, como ve, necesita mantener las probabilidades tan cerca como (0/1) y (1/0). Espera que las probabilidades de registro oscilen entre menos infinito y más infinito. Por lo tanto, para sumar o restar, ¡debes elegir hasta un decimal muy largo, de modo que las probabilidades de registro sean cercanas al infinito (o muy grandes)! El grado que considerará lo suficientemente grande depende únicamente de usted.
fuente
Consulte lo siguiente, donde se menciona una transformación ad hoc maartenbuis.nl/presentations/berlin10.pdf en la diapositiva 17. También podría modelar 0 y 1 con dos regresiones logísticas separadas y luego usar la regresión Beta para aquellos que no están en el límite.
fuente
fuente