Modelado cuando la variable dependiente tiene un "corte"

12

Disculpas de antemano si alguna de la terminología que uso es incorrecta. Agradecería cualquier corrección. Si lo que describo como "corte" tiene un nombre diferente, avíseme y puedo actualizar la pregunta.

La situación que me interesa es esta: tiene variables independientes x una sola variable dependiente y . Lo dejaré vago, pero supongo que sería relativamente sencillo obtener un buen modelo de regresión para estas variables.

xw=min(y,a)y y wayyw

Un ejemplo (algo poco realista) de esto sería si intentara modelar por cuántos años las personas cobrarán su pensión. En este caso, x podría ser información relevante como el sexo, el peso, las horas de ejercicio por semana, etc. El 'subyacente' variable y sería la esperanza de vida. Sin embargo, la variable a la que tendría acceso e intentaría predecir en su modelo sería w=min(0,yr) donde r es la edad de jubilación (suponiendo que sea simple).

¿Existe un buen enfoque para lidiar con esto en el modelado de regresión?

Ben Aaronson
fuente
1
No estoy seguro, pero parece que podría ser accesible a través de alguna variación del análisis de supervivencia. 1) Implica censurar 2) Al menos en su ejemplo, implica tiempo. Pero sería censurado a la izquierda en lugar de a la derecha (que es más común). Si está de acuerdo conmigo, puede agregar la etiqueta de supervivencia y ver si alguien salta sobre ella.
Peter Flom - Restablece a Monica
44
@ Peter Seguramente me parece bien censurado. En qué lado se produce la censura es de poca importancia, porque al negar la variable dependiente uno cambia entre la censura derecha e izquierda.
whuber
@whuber Creo que tienes razón. Pero, como usted dice, la censura puede cambiar fácilmente.
Peter Flom - Restablece a Monica
El ejemplo de jubilación parece requerir un modelo de datos de conteo (si está dispuesto a redondear a años enteros y siempre y cuando todos estén muertos para cuando realice el análisis). El enfoque de la variable latente parece estirar con esto ya que el tiempo no puede ser negativo.
Dimitriy V. Masterov

Respuestas:

14

Este tipo de modelo tiene varios nombres, según la disciplina y el área temática. Los nombres comunes son Variables dependientes censuradas, Variables dependientes truncadas, Variables dependientes limitadas, Análisis de supervivencia, Tobit y Regresión censurada. Probablemente estoy dejando de lado varios otros nombres.

La configuración que sugiere donde se observa se llama "censura derecha", porque los valores de demasiado a la derecha en la línea real están censurados --- y en su lugar solo vemos el punto de censura, .y i amin{yi,a}yia

Una forma de tratar datos como este es mediante el uso de variables latentes (y esto es básicamente lo que usted propone). Aquí hay una forma de proceder:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Luego, puede analizar esto por la máxima probabilidad. Las observaciones donde ocurre la censura contribuyen a la función de probabilidad, y las observaciones donde no ocurre la censura contribuyen a la función de probabilidad. El CDF de la normal estándar es y la densidad de la normal estándar es . Entonces, la función de probabilidad se ve así:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Estima el y maximizando esto. Obtiene errores estándar como los errores estándar habituales de máxima probabilidad.σβσ

Como puede imaginar, este es solo un enfoque entre muchos.

Cuenta
fuente
1
+1 Un ejemplo trabajado de la solución ML aparece en stats.stackexchange.com/questions/49443 .
whuber
@whuber Esa es una buena exposición.
Bill