Disculpas de antemano si alguna de la terminología que uso es incorrecta. Agradecería cualquier corrección. Si lo que describo como "corte" tiene un nombre diferente, avíseme y puedo actualizar la pregunta.
La situación que me interesa es esta: tiene variables independientes una sola variable dependiente . Lo dejaré vago, pero supongo que sería relativamente sencillo obtener un buen modelo de regresión para estas variables.
y y w
Un ejemplo (algo poco realista) de esto sería si intentara modelar por cuántos años las personas cobrarán su pensión. En este caso, podría ser información relevante como el sexo, el peso, las horas de ejercicio por semana, etc. El 'subyacente' variable sería la esperanza de vida. Sin embargo, la variable a la que tendría acceso e intentaría predecir en su modelo sería donde r es la edad de jubilación (suponiendo que sea simple).
¿Existe un buen enfoque para lidiar con esto en el modelado de regresión?
fuente
Respuestas:
Este tipo de modelo tiene varios nombres, según la disciplina y el área temática. Los nombres comunes son Variables dependientes censuradas, Variables dependientes truncadas, Variables dependientes limitadas, Análisis de supervivencia, Tobit y Regresión censurada. Probablemente estoy dejando de lado varios otros nombres.
La configuración que sugiere donde se observa se llama "censura derecha", porque los valores de demasiado a la derecha en la línea real están censurados --- y en su lugar solo vemos el punto de censura, .y i amin{yi,a} yi a
Una forma de tratar datos como este es mediante el uso de variables latentes (y esto es básicamente lo que usted propone). Aquí hay una forma de proceder:
Luego, puede analizar esto por la máxima probabilidad. Las observaciones donde ocurre la censura contribuyen a la función de probabilidad, y las observaciones donde no ocurre la censura contribuyen a la función de probabilidad. El CDF de la normal estándar es y la densidad de la normal estándar es . Entonces, la función de probabilidad se ve así:P{yi>a}=Φ(1σx′iβ−a) 1σϕ((yi−x′iβ)/σ) Φ ϕ
Estima el y maximizando esto. Obtiene errores estándar como los errores estándar habituales de máxima probabilidad.σβ σ
Como puede imaginar, este es solo un enfoque entre muchos.
fuente