Estoy familiarizado con el concepto de variables categóricas y la respectiva codificación de variables ficticias que nos permite ajustar un nivel como línea de base para evitar la colinealidad. También estoy familiarizado con la forma de interpretar las estimaciones de parámetros de tales modelos: el cambio previsto en el resultado para un nivel ajustado determinado del predictor categórico, en relación con la categoría de referencia.
De lo que no estoy seguro es de cómo interpretar un conjunto de variables independientes que son proporciones que suman uno . Nuevamente tenemos colinealidad si ajustamos todas las proporciones en el modelo, por lo que presumiblemente tendríamos que dejar una categoría como línea de base. También supongo que miraría el tipo III SS para la prueba general de la importancia de esta variable. Sin embargo, ¿cómo interpretamos las estimaciones de los parámetros para esos niveles ajustados en el modelo frente a los que se consideran de referencia?
Un ejemplo : a nivel de código postal, la variable independiente es la proporción de rocas metamórficas, ígneas y sedimentarias. Como sabrán, estos son los tres tipos principales de rocas, y todas las rocas están clasificadas como una de ellas. Como tal, las proporciones entre los tres suman 1. El resultado es el nivel promedio de radón en un código postal respectivo.
Si tuviera que ajustar, digamos, las proporciones metamórficas e ígneas como predictores en el modelo, dejando sedimentaria como línea de base, una prueba general de SS F tipo III de los dos niveles ajustados significaría si el tipo de roca, en su conjunto, es importante predictor del resultado (nivel promedio de radón). Luego, pude ver los valores p individuales (basados en la distribución t ) para determinar si uno o ambos tipos de roca eran significativamente diferentes de la línea de base.
Sin embargo, cuando se trata de las estimaciones de parámetros, mi cerebro sigue queriendo interpretarlas puramente como el cambio previsto en el resultado entre grupos (tipos de rocas), y no entiendo cómo incorporar el hecho de que están en forma como proporciones .
Si la estimación para metamórfica fuera, digamos, 0.43, la interpretación no es simplemente que el nivel de radón promedio predicho aumenta en 0.43 unidades cuando la roca es metamórfica vs. sedimentaria. Sin embargo, la interpretación tampoco es simplemente para algún tipo de aumento de la unidad (digamos 0.1) en la proporción del tipo de roca metamórfica, porque esto no refleja el hecho de que también es relativo a la línea base ( sedimentaria ) y, además, ese cambio La proporción de metamórficos cambia inherentemente la proporción del otro nivel de roca ajustado en el modelo, ígneo .
¿Alguien tiene una fuente que proporcione la interpretación de dicho modelo, o podría proporcionar un breve ejemplo aquí si no?
Respuestas:
Como seguimiento y lo que creo que es la respuesta correcta (me parece razonable): publiqué esta pregunta en el servidor de listas de ASA Connect, y recibí la siguiente respuesta de Thomas Sexton en Stony Brook:
"Su modelo de regresión lineal estimado se ve así:
ln (Radón) = (una expresión lineal en otras variables) + 0.43M + 0.92I
donde M e I representan los porcentajes de rocas metamórficas e ígneas, respectivamente, en el código postal. Estás limitado por:
M + I + S = 100
donde S representa los porcentajes de roca sedimentaria en el código postal.
La interpretación de 0.43 es que un aumento de un punto porcentual en M está asociado con un aumento de 0.43 en ln (Radón) manteniendo todas las demás variables en el modelo fijo . Por lo tanto, el valor de I no puede cambiar, y la única forma de tener un aumento de un punto porcentual en M mientras se cumple la restricción es tener una disminución de un punto porcentual en S, la categoría omitida.
Por supuesto, este cambio no puede ocurrir en los códigos postales en los que S = 0, pero una disminución en M y un aumento correspondiente en S sería posible en dichos códigos postales ".
Aquí está el enlace al subproceso ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476d3ddf&sb06f2f9f2f2f2f2f2f2f2
Estoy publicando esto como la respuesta correcta aceptada, pero todavía estoy abierto a una discusión adicional si alguien tiene algo que agregar.
fuente