Regresión para un resultado (proporción o fracción) entre 0 y 1

43

Estoy pensando en construir un modelo que prediga una relación , donde y y . Entonces, la relación estaría entre y .a b a > 0 b > 0 0 1a/baba>0b>001

Podría usar la regresión lineal, aunque naturalmente no se limita a 0..1. No tengo ninguna razón para creer que la relación sea lineal, pero, por supuesto, a menudo se usa de todos modos, como un primer modelo simple.

Podría usar una regresión logística, aunque normalmente se usa para predecir la probabilidad de un resultado de dos estados, no para predecir un valor continuo desde el rango 0..1.

Sin saber nada más, ¿usaría regresión lineal, regresión logística u opción oculta c ?

dfrankow
fuente
44
¿Has considerado la regresión beta?
Peter Flom - Restablece a Monica
Muchas gracias a todos los que respondieron. Tendré que estudiar y elegir. Parece que una versión beta es un buen lugar para comenzar, especialmente si puedo observar un buen ajuste (quizás a simple vista).
dfrankow
He visto esto hecho usando GLM (función de enlace de Poisson). El numerador a sería la información de conteo (el resultado) y el denominador b sería la variable de compensación. Entonces necesitaría valores separados de a y b para cada sujeto / observación. No estoy seguro de si esta es la opción más válida. Considero que la distribución Beta es una opción interesante, una de la que no había oído hablar. Sin embargo, me resulta difícil de entender, ya que no soy estadístico.
MegPophealth
Gracias a todos por su análisis profundo y útil, actualmente estoy enfrentando casi el mismo desafío, pero en lugar de predecir un rango de relación continua entre 0-1, prefiero construir un modelo de regresión para predecir el rango de utilidad de los pacientes entre -1 y 1. Esto es bastante complicado, no pude encontrar ninguna función de enlace adecuada para construir un modelo de regresión con un rango dependiente continuo entre -1 y 1. Por lo tanto, los chicos solo quieren tener idea de lo que se podría hacer. Gracias,
1
Por el momento, hay una respuesta trivial: reescalar la respuesta por trae cualquier enlace para en el rango, después de lo cual puede reescalar para informar predicciones si lo desea. ( y + 1 ) / 2 [ 0 , 1 ]y(y+1)/2[0,1]
Nick Cox

Respuestas:

34

Debe elegir "opción oculta c", donde c es la regresión beta. Este es un tipo de modelo de regresión que es apropiado cuando la variable de respuesta se distribuye como Beta . Puedes considerarlo como análogo a un modelo lineal generalizado . Es exactamente lo que estás buscando. Hay un paquete Rllamado betareg que se ocupa de esto. No sé si lo usa R, pero incluso si no puede leer las 'viñetas' de todos modos, le darán información general sobre el tema además de cómo implementarlo R(que no necesitaría en Ese caso).


Editar (mucho más tarde): Déjame hacer una aclaración rápida. Interpreto que la pregunta se refiere a la relación de dos valores reales positivos. Si es así, (y se distribuyen como Gammas) esa es una distribución Beta. Sin embargo, si es un recuento de 'éxitos' de un total conocido, b , de 'ensayos', entonces sería una proporción de recuento a / b , no una proporción continua, y debe usar GLM binomial (por ejemplo, logística regresión). Para saber cómo hacerlo en R, consulte, por ejemplo, ¿Cómo hacer una regresión logística en R cuando el resultado es fraccional (una razón de dos recuentos)?aba/b

Otra posibilidad es utilizar la regresión lineal si las proporciones se pueden transformar para cumplir con los supuestos de un modelo lineal estándar, aunque no sería optimista acerca de que realmente funcione.

gung - Restablece a Monica
fuente
1
¿Le importaría explicar por qué las regresiones beta serían preferibles en este caso? Esa es una recomendación que veo con bastante frecuencia aquí, pero realmente no veo a nadie que explique la razón: ¡sería bueno tenerla!
Matt Parker
44
@MattParker, Beta es la distribución de proporciones continuas; si eso es lo que tiene como variable de respuesta, entonces Beta es la distribución adecuada para usar. Es realmente así de simple. El valor ajustado de una regresión logística es una probabilidad (que obviamente es continua), pero la distribución es binomial (cierto número de pruebas de Bernoulli con probabilidad de éxito ) si su variable de respuesta no es un conjunto de pruebas de Bernoulli, entonces LR no es apropiado. p
gung - Restablece a Monica
3
Tendría cuidado al decir que una beta es "la" distribución apropiada para usar. Es bastante flexible y puede ser apropiado, pero no cubre todos los casos. Entonces, si bien es una buena sugerencia y puede muy bien ser lo que quieren, no se puede decir que sea la distribución adecuada únicamente por el hecho de que es una respuesta continua entre 0 y 1.
Dason
1
Una distribución triangular en [0,1] representa una distribución continua en proporciones que no es beta. Podría haber muchos otros. La versión beta es una familia bastante flexible, pero no tiene nada de mágico. Realmente haces un buen punto sobre la regresión logística porque usualmente se aplica a datos binarios.
Michael R. Chernick
2
Quizás debería intentar parecer menos dogmático. Lo que quise decir es que examinas tu DV y usas la distribución que sigue. Es cierto que hay otras distribuciones de proporciones continuas. Técnicamente, Beta es la relación de un Gamma sobre la suma de él + otro Gamma. En una situación dada, una distribución diferente podría ser superior; por ejemplo, Beta no puede tomar los valores 0 o 1, solo (0, 1). No obstante, Beta es bien entendido y muy flexible con solo 2 parámetros para ajustar. Sostengo que cuando se trata con un DV que es una proporción continua, generalmente es el mejor lugar para comenzar.
gung - Restablece a Monica
2

¿Son estas muestras pareadas o dos poblaciones independientes?

XiXiMiXiMi

Su intercepción de esta regresión será log (B) y su pendiente será log (ratio).

Ver más aquí:

Beyene J, Moineddin R. Métodos para la estimación del intervalo de confianza de un parámetro de relación con la aplicación de los cocientes de ubicación. Metodología de investigación médica BMC. 2005; 5 (1): 32.

EDITAR: he escrito un complemento de SPSS para hacer justamente esto. Puedo compartirlo si te interesa.

DocBuckets
fuente
1
Por curiosidad, ¿qué método usaste (delta, Fieller o GLM)? Me mata un poco que el artículo de BMC no hiciera algunas simulaciones de la cobertura de los diferentes estimadores (aunque soñar con una simulación realista sería molesto). Me recordó porque recientemente me encontré con un artículo que hace el método delta (sin justificación real), aunque sí cita el artículo de BMC.
Andy W
1
Cuando escribí este comentario, lo usé REGRESSIONdespués de la transformación logarítmica de los datos. Desde entonces, he escrito una versión más sofisticada que usa GLM. Me ocupo de las mediciones de emisión de luz y mis pruebas sugirieron que la regresión gamma con un enlace logarítmico era la menos propensa a la incertidumbre incontrolable sobre los parámetros. Para la mayoría de mis datos reales, las respuestas del uso normal, binomial negativo y gamma con log-link fueron realmente similares (al menos a la precisión que necesitaba)
DocBuckets
0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x

Michael R. Chernick
fuente
p
2
-1. Estoy de acuerdo con @amoeba. Estoy desconcertado por qué esto alguna vez fue votado. No tiene relación con la pregunta, que no asume datos binarios 0 o 1 en absoluto, sino que se centra en proporciones medidas que están entre 0 y 1 inclusive.
Nick Cox