Para ampliar un poco la respuesta de @ ken-butler. Al agregar tanto la variable continua (horas) como una variable indicadora para un valor especial (horas = 0 o no lactancia), cree que hay un efecto lineal para el valor "no especial" y un salto discreto en el Resultado previsto en el valor especial. Ayuda (al menos para mí) mirar un gráfico. En el ejemplo a continuación, modelamos el salario por hora en función de las horas por semana que trabajan los encuestados (todas las mujeres), y creemos que hay algo especial sobre "el estándar" 40 horas por semana:
El código que produjo este gráfico (en Stata) se puede encontrar aquí: http://www.stata.com/statalist/archive/2013-03/msg00088.html
Entonces, en este caso, hemos asignado a la variable continua un valor 40, aunque queríamos que fuera tratado de manera diferente a los otros valores. Del mismo modo, le daría a sus semanas de lactancia materna el valor 0 aunque piense que es cualitativamente diferente de los otros valores. A continuación interpreto su comentario de que cree que esto es un problema. Este no es el caso y no necesita agregar un término de interacción. De hecho, ese término de interacción se eliminará debido a una colinealidad perfecta si lo intentas. Esto no es una limitación, solo le dice que los términos de interacción no agregan ninguna información nueva.
Digamos que su ecuación de regresión se ve así:
y^=β1weeks_breastfeeding+β2non_breastfeeding+⋯
Donde es el número de semanas lactancia (incluyendo el valor 0 para las que no amamantan) y es un indicador variable que es 1 cuando alguien no da el pecho y 0 en caso contrario.n o n _ b r e a s t f e e d i n gweeks_breastfeedingnon_breastfeeding
Considere lo que sucede cuando alguien está amamantando. La ecuación de regresión se simplifica a:
y^=β1weeks_breastfeeding+β20+⋯=β1weeks_breastfeeding+⋯
Entonces, es solo un efecto lineal de la cantidad de semanas de lactancia para las que sí lo hacen.β1
Considere lo que sucede cuando alguien no está amamantando:
y^=β10+β21+⋯=β2+⋯
Entonces le da el efecto de no amamantar y la cantidad de semanas de lactancia materna cae de la ecuación.β2
Puede ver que no sirve de nada agregar un término de interacción, ya que ese término de interacción ya está (implícitamente) allí.
Sin embargo, hay algo extraño en , ya que mide el efecto de la lactancia materna comparando el resultado esperado de aquellos que no amamantan con aquellos que amamantan, pero lo hacen solo 0 semanas ... Tiene sentido en un "comparar me gusta con me gusta ", pero la utilidad práctica no es inmediatamente obvia. Puede tener más sentido comparar los "no amamantadores" con aquellas mujeres que estaban amamantando 12 semanas (aproximadamente 3 meses). En ese caso, simplemente le da a los "no amamantadores" el valor 12 por . Por lo tanto, el valor que asigna a para los "no amamantadores" influye en el coeficiente de regresiónβ2weeks_breastfeedingweeks_breastfeedingβ2en el sentido de que determina con quién se comparan los "no amamantadores". En lugar de un problema, esto es realmente algo que puede ser bastante útil.
Algo simple: represente su variable mediante un indicador 1/0 para any / none y el valor real. Pon ambos en la regresión.
fuente
Si coloca un indicador binario para tiempo invertido (= 1) frente a tiempo invertido (= 0) y luego tiene la cantidad de tiempo invertido como una variable continua, el efecto diferente de "0" veces será " recogido "por el indicador 0-1
fuente
Puede usar modelos de efectos mixtos con una agrupación basada en tiempo 0 frente a tiempo distinto de cero y mantener su variable independiente
fuente
Si está utilizando Random Forest o Neural Network, poner este número como 0 está bien, porque podrán descubrir que 0 es claramente diferente de otros valores (si de hecho es diferente). Otra forma es agregar una variable categórica sí / no además de la variable de tiempo.
Pero, en general, en este caso particular no veo un problema real: 0.1 semanas de lactancia materna es cercana a 0 y el efecto será muy similar, por lo que me parece una variable bastante continua con 0 sin sobresalir como algo distinto.
fuente
El modelo Tobit es lo que quieres, creo.
fuente