Tiempo dedicado a una actividad como variable independiente.

14

Quiero incluir el tiempo dedicado a hacer algo (semanas de lactancia materna, por ejemplo) como una variable independiente en un modelo lineal. Sin embargo, algunas observaciones no se involucran en el comportamiento en absoluto. Codificarlos como 0 no es realmente correcto, porque 0 es cualitativamente diferente de cualquier valor> 0 (es decir, las mujeres que no amamantan pueden ser muy diferentes de las que sí lo hacen, incluso aquellas que no lo hacen por mucho tiempo). Lo mejor que se me ocurre es un conjunto de dummies que clasifica el tiempo dedicado, pero esto es un desperdicio de información valiosa. Algo así como Poisson inflado a cero también parece una posibilidad, pero no puedo entender exactamente cómo se vería en este contexto. ¿Alguien tiene alguna sugerencia?

DL Dahly
fuente

Respuestas:

16

Para ampliar un poco la respuesta de @ ken-butler. Al agregar tanto la variable continua (horas) como una variable indicadora para un valor especial (horas = 0 o no lactancia), cree que hay un efecto lineal para el valor "no especial" y un salto discreto en el Resultado previsto en el valor especial. Ayuda (al menos para mí) mirar un gráfico. En el ejemplo a continuación, modelamos el salario por hora en función de las horas por semana que trabajan los encuestados (todas las mujeres), y creemos que hay algo especial sobre "el estándar" 40 horas por semana:

ingrese la descripción de la imagen aquí

El código que produjo este gráfico (en Stata) se puede encontrar aquí: http://www.stata.com/statalist/archive/2013-03/msg00088.html

Entonces, en este caso, hemos asignado a la variable continua un valor 40, aunque queríamos que fuera tratado de manera diferente a los otros valores. Del mismo modo, le daría a sus semanas de lactancia materna el valor 0 aunque piense que es cualitativamente diferente de los otros valores. A continuación interpreto su comentario de que cree que esto es un problema. Este no es el caso y no necesita agregar un término de interacción. De hecho, ese término de interacción se eliminará debido a una colinealidad perfecta si lo intentas. Esto no es una limitación, solo le dice que los términos de interacción no agregan ninguna información nueva.

Digamos que su ecuación de regresión se ve así:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Donde es el número de semanas lactancia (incluyendo el valor 0 para las que no amamantan) y es un indicador variable que es 1 cuando alguien no da el pecho y 0 en caso contrario.n o n _ b r e a s t f e e d i n gweeks_breastfeedingnon_breastfeeding

Considere lo que sucede cuando alguien está amamantando. La ecuación de regresión se simplifica a:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Entonces, es solo un efecto lineal de la cantidad de semanas de lactancia para las que sí lo hacen.β1

Considere lo que sucede cuando alguien no está amamantando:

y^=β10+β21+=β2+

Entonces le da el efecto de no amamantar y la cantidad de semanas de lactancia materna cae de la ecuación.β2

Puede ver que no sirve de nada agregar un término de interacción, ya que ese término de interacción ya está (implícitamente) allí.

Sin embargo, hay algo extraño en , ya que mide el efecto de la lactancia materna comparando el resultado esperado de aquellos que no amamantan con aquellos que amamantan, pero lo hacen solo 0 semanas ... Tiene sentido en un "comparar me gusta con me gusta ", pero la utilidad práctica no es inmediatamente obvia. Puede tener más sentido comparar los "no amamantadores" con aquellas mujeres que estaban amamantando 12 semanas (aproximadamente 3 meses). En ese caso, simplemente le da a los "no amamantadores" el valor 12 por . Por lo tanto, el valor que asigna a para los "no amamantadores" influye en el coeficiente de regresiónβ2weeks_breastfeedingweeks_breastfeedingβ2en el sentido de que determina con quién se comparan los "no amamantadores". En lugar de un problema, esto es realmente algo que puede ser bastante útil.

Maarten Buis
fuente
1
Agradezco la respuesta (y las demás), pero me cuesta aceptarla. Si incluyo un 1: 0, y la variable de tiempo continuo, todavía tengo que asignar un valor de tiempo a los que no se alimentan de pecho (o de lo contrario se caen por una covariable faltante). Incluso condicional a la variable 1: 0, no veo cómo incluir los no alimentadores de pecho como time = 0 no afecta el coeficiente de regresión. ¿Quizás también tenga más sentido agregar el término de interacción del producto entre los dos?
DL Dahly
@DLDahly He editado mi respuesta para hacer frente a estas dudas
Maarten Buis
Ok, eso es muy útil. Permítame preguntarle un seguimiento rápido más ... si lo estoy entendiendo correctamente, entonces el valor estimado para B1 debería ser el mismo independientemente del valor de tiempo que le dé a las personas B2 = 1. ¿Está bien?
DL Dahly
1
Muy buena respuesta Maarten. Aquí hay una pregunta / respuesta similar en el sitio que muestra una situación similar al incluir una variable independiente que solo pertenece a un subgrupo particular .
Andy W
1
@ GavinM.Jones Nunca pensé en la necesidad de nombrarlo o citar esto: es solo una aplicación directa de variables continuas e indicadoras. En consecuencia, no tengo una buena referencia para ti. Lo último que podría desenterrar rápidamente es Treiman, DJ (2009): Análisis cuantitativo de datos. Haciendo investigación social para probar ideas. San Francisco: Jossey-Bass. , el capítulo 7 discutió algo similar. El modelo contiene una constante.
Maarten Buis
6

Algo simple: represente su variable mediante un indicador 1/0 para any / none y el valor real. Pon ambos en la regresión.

Ken Butler
fuente
4

Si coloca un indicador binario para tiempo invertido (= 1) frente a tiempo invertido (= 0) y luego tiene la cantidad de tiempo invertido como una variable continua, el efecto diferente de "0" veces será " recogido "por el indicador 0-1

Glen_b -Reinstate a Monica
fuente
2

Puede usar modelos de efectos mixtos con una agrupación basada en tiempo 0 frente a tiempo distinto de cero y mantener su variable independiente

rezakhorshidi
fuente
¿Podría por favor ampliar esto un poco? Muchas gracias.
DL Dahly
Un modelo de efectos mixtos supone que existe un factor que divide los datos en diferentes cubos (heterogéneos), en cada uno de los cuales podríamos tener una relación diferente entre las variables explicativas y las dependientes (ya sea en términos de intercepción o intercepción y pendiente / coeficiente). en.wikipedia.org/wiki/Mixed_model
rezakhorshidi
Entonces, ¿utiliza individuos, anidados en estado de lactancia materna, y luego una pendiente aleatoria en las semanas de lactancia? Podría hacer esto como un SEM con bastante facilidad y probar ciertas restricciones. Gracias +1
DL Dahly
1

Si está utilizando Random Forest o Neural Network, poner este número como 0 está bien, porque podrán descubrir que 0 es claramente diferente de otros valores (si de hecho es diferente). Otra forma es agregar una variable categórica sí / no además de la variable de tiempo.

Pero, en general, en este caso particular no veo un problema real: 0.1 semanas de lactancia materna es cercana a 0 y el efecto será muy similar, por lo que me parece una variable bastante continua con 0 sin sobresalir como algo distinto.

sashkello
fuente
3
+1 para el primer párrafo, pero que trata sobre ciencias sociales o datos médicos, el efecto de 0 vs. 0.1 semanas de algo no es la principal preocupación. El punto es que las mujeres que no intentan ni denuncian la lactancia materna pueden ser sistemáticamente diferentes en muchos otros aspectos (problemas de salud, ingresos, situación familiar, capacidad para quedarse sin trabajo, acceso a servicios de salud, donde obtuvieron información sobre crianza de los hijos, etc.) Realmente no hay razón para creer que estas mujeres son muy similares a las madres que intentan amamantar y la detienen rápidamente.
Gala
1
Desde un punto de vista estadístico, sería mejor poner estas otras variables explícitamente en su modelo, pero tiene sentido tener cuidado de suponer que no hay nada especial en 0, creo.
Gala
0

El modelo Tobit es lo que quieres, creo.

Mark T Patterson
fuente
55
Los tobits se usan cuando el resultado se censura por encima o por debajo de algún umbral. Por ejemplo, no observamos ningún salario por debajo del salario mínimo o ingresos por encima de algún valor codificado superior. Esta aplicación es para una variable independiente.
Dimitriy V. Masterov