Estoy pensando en construir un modelo que prediga una relación , donde y y . Entonces, la relación estaría entre y .a ≤ b a > 0 b > 0 0 1
Podría usar la regresión lineal, aunque naturalmente no se limita a 0..1. No tengo ninguna razón para creer que la relación sea lineal, pero, por supuesto, a menudo se usa de todos modos, como un primer modelo simple.
Podría usar una regresión logística, aunque normalmente se usa para predecir la probabilidad de un resultado de dos estados, no para predecir un valor continuo desde el rango 0..1.
Sin saber nada más, ¿usaría regresión lineal, regresión logística u opción oculta c ?
Respuestas:
Debe elegir "opción oculta c", donde c es la regresión beta. Este es un tipo de modelo de regresión que es apropiado cuando la variable de respuesta se distribuye como Beta . Puedes considerarlo como análogo a un modelo lineal generalizado . Es exactamente lo que estás buscando. Hay un paquete
R
llamado betareg que se ocupa de esto. No sé si lo usaR
, pero incluso si no puede leer las 'viñetas' de todos modos, le darán información general sobre el tema además de cómo implementarloR
(que no necesitaría en Ese caso).Editar (mucho más tarde): Déjame hacer una aclaración rápida. Interpreto que la pregunta se refiere a la relación de dos valores reales positivos. Si es así, (y se distribuyen como Gammas) esa es una distribución Beta. Sin embargo, si es un recuento de 'éxitos' de un total conocido, b , de 'ensayos', entonces sería una proporción de recuento a / b , no una proporción continua, y debe usar GLM binomial (por ejemplo, logística regresión). Para saber cómo hacerlo en R, consulte, por ejemplo, ¿Cómo hacer una regresión logística en R cuando el resultado es fraccional (una razón de dos recuentos)?una si a / b
Otra posibilidad es utilizar la regresión lineal si las proporciones se pueden transformar para cumplir con los supuestos de un modelo lineal estándar, aunque no sería optimista acerca de que realmente funcione.
fuente
¿Son estas muestras pareadas o dos poblaciones independientes?
Su intercepción de esta regresión será log (B) y su pendiente será log (ratio).
Ver más aquí:
Beyene J, Moineddin R. Métodos para la estimación del intervalo de confianza de un parámetro de relación con la aplicación de los cocientes de ubicación. Metodología de investigación médica BMC. 2005; 5 (1): 32.
EDITAR: he escrito un complemento de SPSS para hacer justamente esto. Puedo compartirlo si te interesa.
fuente
REGRESSION
después de la transformación logarítmica de los datos. Desde entonces, he escrito una versión más sofisticada que usaGLM
. Me ocupo de las mediciones de emisión de luz y mis pruebas sugirieron que la regresión gamma con un enlace logarítmico era la menos propensa a la incertidumbre incontrolable sobre los parámetros. Para la mayoría de mis datos reales, las respuestas del uso normal, binomial negativo y gamma con log-link fueron realmente similares (al menos a la precisión que necesitaba)fuente