Explicación del modelo Tobit

13

Tenemos 100 participantes en dos grupos, $n=50$ en cada grupo Utilizamos una evaluación de la capacidad del funcionamiento básico en 4 puntos de tiempo. La evaluación consta de 6 preguntas, cada una de las cuales obtuvo un puntaje de 0 a 5. No tenemos puntajes individuales para cada pregunta, solo puntajes totales que oscilan entre 0 y 30. Los puntajes más altos indican un mejor funcionamiento. El problema es que la evaluación es muy básica y tiene un efecto techo significativo. Los resultados son muy negativamente sesgados. La mayoría de los participantes obtuvo una puntuación cercana a 30, especialmente en los 3 puntos de tiempo de seguimiento. Es probable que no todos los participantes que obtuvieron puntajes en los límites superiores sean realmente iguales en capacidad: algunos de los participantes obtuvieron 30 puntos y otros puntuaron 30 con facilidad y obtendrían puntajes mucho más altos si fuera posible, por lo que los datos son censurado desde arriba.

Quiero comparar los dos grupos y con el tiempo, pero obviamente esto es muy difícil dada la naturaleza de los resultados. Las transformaciones de cualquier tipo no hacen ninguna diferencia. Me han informado que el modelo Tobit es el mejor equipado para esta evaluación y puedo ejecutar el análisis en R usando ejemplos del artículo de Arne Henningen, Estimación de modelos de regresión censurados en R usando el paquete censReg .

Sin embargo, solo tengo un conocimiento básico de estadística y he encontrado que la información sobre el modelo Tobit es bastante complicada. Necesito poder explicar este modelo en lenguaje sencillo y no puedo encontrar un lenguaje sencillo, una explicación básica sobre qué hace realmente el modelo Tobit y cómo. ¿Alguien puede explicar el modelo de Tobit o señalarme en la dirección de una referencia legible sin complicadas explicaciones estadísticas y matemáticas?

Muy agradecido por cualquier ayuda

tobit-regression Adán
fuente

8

La wiki describe el modelo Tobit de la siguiente manera:

y_{i} = {\begin{cases} y_{i}^{*} & if y_{i}^{*} > 0 \\ 0 & if y_{i}^{*} \leq 0 \end{cases}

$y_i = \begin{cases} y_i^* &\text{if} \quad y_i^* > 0 \\ \ 0 &\text{if} \quad y_i^* \le 0 \end{cases}$

y_{i}^{*} = β x_{i} + u_{i}

$y_i^* = \beta x_i + u_i$

u_{i} \sim N (0, σ^{2})

$u_i \sim N(0,\sigma^2)$

Adaptaré el modelo anterior a su contexto y ofreceré una interpretación sencilla en inglés de las ecuaciones que pueden ser útiles.

y_{i} = {\begin{cases} y_{i}^{*} & if y_{i}^{*} \leq 30 \\ 30 & if y_{i}^{*} > 30 \end{cases}

$y_i = \begin{cases}\ y_i^* &\text{if} \quad y_i^* \le 30 \\ 30 &\text{if} \quad y_i^* > 30 \end{cases}$

y_{i}^{*} = β x_{i} + u_{i}

$y_i^* = \beta x_i + u_i$

u_{i} \sim N (0, σ^{2})

$u_i \sim N(0,\sigma^2)$

$y_i^*$

$y_i = 30 \quad \text{if} \quad y_i^* > 30$ .
$y_i = y_i^* \quad \text{if} \quad y_i^* \le 30$ .
$y_i^*$ $x_i$

Espero que sea de ayuda. Si algún aspecto no está claro, no dude en preguntar en los comentarios.

varty
fuente

Varty, aprecio mucho tu respuesta. ¡Fue muy útil y muy rápido! No estoy seguro de que me sienta cómodo explicándolo todavía, pero seguiré leyendo. Si conoce textos legibles en Tobit, no dude en reenviarlos. Muchas gracias de nuevo

Adam

4

Hay un artículo de Berk en la edición de 1983 de American Sociological Review (tercer número): así es como aprendí sobre la censura. La explicación es específicamente sobre el sesgo de selección, pero es absolutamente relevante para su problema. El sesgo de selección, como explica Berk, es simplemente censurar a través del proceso de selección de muestra, en su caso, la censura es el resultado de un instrumento insensible. Hay algunos buenos gráficos que muestran exactamente cómo puede esperar que su línea de regresión esté sesgada cuando Y se censura de diferentes maneras. En general, el artículo es lógico e intuitivo en lugar de matemático (sí, los trato como separados, prefiriendo los primeros). Tobit se discute como una solución al problema.

En términos más generales, parece que tobit es la herramienta adecuada para el trabajo en cuestión. Básicamente, la forma en que funciona es estimando la probabilidad de ser censurado y luego incorporándolo a la ecuación que predice el puntaje. Hay otro enfoque propuesto por Heckman usando probit y la relación inversa de los molinos, que es básicamente lo mismo, pero le permite tener diferentes variables que predicen la probabilidad de censura y la puntuación en la prueba, obviamente eso no sería apropiado para la situación que usted tener.

Otra recomendación: puede considerar un modelo jerárquico de tobit donde las observaciones se anidan dentro de los individuos. Esto explicaría correctamente la tendencia de los errores a asociarse dentro de los individuos. O si no utiliza un modelo jerárquico, al menos asegúrese de ajustar sus errores estándar para la agrupación de las observaciones dentro de los individuos. Sé que todo esto se puede hacer en Stata y estoy seguro de que R con toda su versatilidad también puede hacerlo ... pero como un ávido usuario de Stata no puedo brindarle ninguna guía sobre cómo hacerlo en R.

Será
fuente

Supongo que esta es la cita completa del artículo al que @Will se refiere: Berk, RA (1983). Una introducción al sesgo de selección de muestra en datos sociológicos. American Sociological Review, 48, 386-398. doi: 10.2307 / 2095230 Hay varias versiones disponibles de este documento, que encontrará en Google Scholar, por ejemplo.

crsh

Explicación del modelo Tobit

Respuestas: