Supongamos que quiero construir un modelo para predecir algún tipo de razón o porcentaje. Por ejemplo, digamos que quiero predecir el número de niños frente a niñas que asistirán a una fiesta, y las características de la fiesta que puedo usar en el modelo son cosas como la cantidad de publicidad para la fiesta, el tamaño del lugar, si hay habrá alcohol en la fiesta, etc. (Este es solo un ejemplo inventado; las características no son realmente importantes).
Mi pregunta es: ¿cuál es la diferencia entre predecir una relación frente a un porcentaje, y cómo cambia mi modelo dependiendo de cuál elijo? ¿Es uno mejor que el otro? ¿Alguna otra función es mejor que cualquiera? (Realmente no me importan los números específicos de relación versus porcentaje; solo quiero poder identificar qué partes tienen más probabilidades de ser "fiestas de niños" frente a "fiestas de niñas"). Por ejemplo, estoy pensando:
- Si quiero predecir un porcentaje (por ejemplo,
# boys / (# boys + # girls)
dado que mi función dependiente está limitada entre 0 y 1, probablemente debería usar algo como una regresión logística en lugar de una regresión lineal). - Si quiero predecir una relación (por ejemplo,
# boys / # girls
o# boys / (1 + # girls)
para evitar errores de división por cero), entonces mi característica dependiente es positiva, así que ¿debería aplicar algún tipo de transformación (log?) Antes de usar una regresión lineal? (¿O algún otro modelo? ¿Qué tipo de modelos de regresión se utilizan para datos positivos sin recuento?) - ¿Es mejor predecir (decir) en general el porcentaje en lugar de la razón, y si es así, ¿por qué?
fuente
Respuestas:
Nunca antes había visto un modelo de regresión para razones, pero la regresión para un porcentaje (o más comúnmente, una fracción) es bastante común. La razón puede ser que es fácil escribir una probabilidad (probabilidad de los datos dados su parámetro) en términos de una fracción o probabilidad : cada elemento tiene una probabilidad de estar en la categoría (vs. ). La estimación de es entonces la fracción estimada.pag UN si pag
Sin embargo, tenga en cuenta: no es estándar hacer un modelo lineal para una fracción; más común es un modelo lineal generalizado , que es un modelo lineal junto con una función de 'enlace' no lineal invertible que controla el rango del modelo deseado (aquí ).[ 0 , 1 ]
El modelo más común para las fracciones es (como usted notó) la regresión logística, que le permite usar regresores en la línea real pero tiene una fracción limitada para vivir en [0,1]. Sin embargo, la regresión logística es técnicamente un modelo para datos binarios, lo que significa que observa una serie de eventos en los que cada entrada (conjunto de variables independientes) produce una observación independiente de o . Para el caso en el que solo tiene una población dividida en dos clases diferentes (es decir, y no tiene regresores separados para cada miembro de la población), es posible que desee una regresión binomial .0 0 1
Dicho esto, probablemente no haya nada que le impida escribir un modelo lineal generalizado (GLM) para proporciones. (La regresión logística y binomial también son GLM). Debería elegir una función de mapeo desde el espacio de entrada al espacio de posibles relaciones (por ejemplo, ), luego anote su probabilidad en términos de la relación resultante.Iniciar sesión
fuente
Haciéndose eco de la primera respuesta. No se moleste en convertir, solo modele los recuentos y las covariables directamente.
Si hace eso y ajusta un modelo de regresión binomial (o equivalentemente logístico) al niño, la niña contará que, si elige la función de enlace habitual para dichos modelos, ya estará ajustando implícitamente una relación (niños y niñas con registro suavizado covariable). Ese es el predictor lineal.
La razón principal para modelar recuentos directamente en lugar de proporciones o proporciones es que no pierde información. Intuitivamente, estarías mucho más seguro de las inferencias de una proporción observada de 1 (niños a niñas) si se tratara de ver 100 niños y 100 niñas que de ver 2 y 2. En consecuencia, si tienes covariables tendrás más información sobre sus efectos y potencialmente un mejor modelo predictivo.
fuente