Estoy revisando un artículo que tiene el siguiente experimento biológico. Se usa un dispositivo para exponer las células a cantidades variables de tensión de corte de fluido. A medida que se aplica un mayor esfuerzo cortante a las células, más de ellas comienzan a desprenderse del sustrato. En cada nivel de esfuerzo cortante, cuentan las células que permanecen unidas, y dado que conocen el número total de células que estaban unidas al principio, pueden calcular una unión fraccionada (o desprendimiento).
Si traza la fracción adherente frente al esfuerzo cortante, el resultado es una curva logística. En teoría, cada celda individual es una observación única, pero obviamente hay miles o decenas de miles de celdas, por lo que el conjunto de datos sería gigantesco, si se configurara de la manera habitual (siendo cada fila una observación).
Entonces, naturalmente, mi pregunta (como se indica en el título) debería tener sentido ahora. ¿Cómo hacemos una regresión logística usando el resultado fraccional como DV? ¿Hay alguna transformación automática que se pueda hacer en glm?
En la misma línea, si hubiera potencialmente 3 o más mediciones (fraccionarias), ¿cómo se haría esto para una regresión logística multinomial?
fuente
http://www.ats.ucla.edu/stat/r/dae/mlogit.htm
Respuestas:
La
glm
funciónR
permite 3 formas de especificar la fórmula para un modelo de regresión logística.Lo más común es que cada fila del marco de datos representa una sola observación y la variable de respuesta es 0 o 1 (o un factor con 2 niveles u otra variable con solo 2 valores únicos).
Otra opción es utilizar una matriz de 2 columnas como variable de respuesta, siendo la primera columna los recuentos de 'éxitos' y la segunda columna los recuentos de 'fracasos'.
También puede especificar la respuesta como una proporción entre 0 y 1, luego especificar otra columna como el 'peso' que da el número total del que proviene la proporción (por lo que una respuesta de 0.3 y un peso de 10 es lo mismo que 3 ' éxitos 'y 7' fracasos ').
Cualquiera de las dos últimas formas encajaría con lo que está tratando de hacer, la última parece la más directa para la forma en que describe sus datos.
fuente
Para empezar, si tiene una variable dependiente que es una proporción, puede usar la Regresión Beta. Esto no se extiende (con mi conocimiento limitado) a múltiples proporciones.
Para obtener una descripción general de la regresión beta y una implementación de R, consulte betareg .
fuente
He estado usando
nnet::multinom
(el paquete nnet es parte de MASS) para un propósito similar, acepta entrada continua en [0, 1].Si necesita una referencia: C. Beleites et.al .: clasificación espectroscópica Raman de tejidos de astrocitoma: utilizando información de referencia blanda. Anal Bioanal Chem, 2011, vol. 400 (9), págs. 2801-2816
fuente