Tengo un estudio donde muchos resultados se representan como porcentajes y estoy usando regresiones lineales múltiples para evaluar el efecto de algunas variables categóricas en estos resultados.
Me preguntaba, dado que una regresión lineal supone que el resultado es una distribución continua, ¿existen problemas metodológicos al aplicar dicho modelo a los porcentajes, que están limitados entre 0 y 100?
regression
ratio
percentage
Bakaburg
fuente
fuente
Respuestas:
Abordaré los problemas relevantes para la posibilidad discreta o continua:
Un problema con la descripción de la media
Tienes una respuesta limitada. Pero el modelo que está ajustando no está acotado, por lo que puede atravesar el límite; algunos de sus valores ajustados pueden ser imposibles, y los valores pronosticados eventualmente deben serlo.
La verdadera relación eventualmente debe volverse más plana de lo que es en el medio a medida que se acerca a los límites, por lo que se esperaría que se doble de alguna manera.
Un problema con la descripción de la varianza.
A medida que la media se acerca al límite, la varianza tenderá a disminuir también, siendo iguales otras cosas. Hay menos espacio entre la media y el límite, por lo que la variabilidad general tiende a reducirse (de lo contrario, la media tendería a alejarse del límite por puntos que, en promedio, están más alejados del lado que no está cerca del límite.
(De hecho, si todos los valores de la población en algún vecindario estuvieran exactamente en el límite, la varianza sería cero).
Un modelo que se ocupe de dicho límite debería tener en cuenta dichos efectos.
Si la proporción es para una variable de conteo, un modelo común para la distribución de la proporción es un GLM binomial. Hay varias opciones para la forma de la relación de la proporción media y los predictores, pero la más común sería un GLM logístico (varias otras opciones son de uso común).
Si la proporción es continua (como el porcentaje de crema en la leche), hay varias opciones. La regresión beta parece ser una opción bastante común. Nuevamente, podría usar una relación logística entre la media y los predictores, o podría usar alguna otra forma funcional.
Ver también Regresión para un resultado (proporción o fracción) entre 0 y 1 .
fuente
Esto es exactamente lo mismo que el caso cuando el resultado está entre 0 y 1, y ese caso generalmente se maneja con un modelo lineal generalizado (GLM) como la regresión logística. Hay muchos cebadores excelentes para la regresión logística (y otros GLM) en Internet, y también hay un libro bien conocido de Agresti sobre el tema.
La regresión beta es una alternativa viable pero más complicada. Lo más probable es que la regresión logística funcione bien para su aplicación y, por lo general, sería más fácil de implementar con la mayoría del software estadístico.
¿Por qué no usar la regresión de mínimos cuadrados ordinarios? En realidad, las personas lo hacen, a veces bajo el nombre de "modelo de probabilidad lineal" (LPM). La razón más obvia por la que los LPM son "malos" es que no hay una manera fácil de restringir el resultado para que se encuentre dentro de un cierto rango, y puede obtener predicciones por encima de 1 (o 100% o cualquier otro límite superior finito) y por debajo de 0 (o algún otro límite inferior). Por la misma razón, las predicciones cerca del límite superior tienden a ser sistemáticamente demasiado altas, y las predicciones cerca del límite inferior tienden a ser demasiado bajas. La matemática subyacente en la regresión lineal asume explícitamente que tendencias como esta no existen. Por lo general, no hay una buena razón para ajustar un LPM sobre la regresión logística.
Por otro lado, resulta que todos los modelos de regresión de OLS, incluidos los LPM, se pueden definir como un tipo especial de GLM, y en este contexto los LPM están relacionados con la regresión logística.
fuente
Podría valer la pena investigar la regresión beta (para lo cual entiendo que hay un paquete R), que parece muy adecuado para tales problemas.
http://www.jstatsoft.org/v34/i02/paper
fuente