Cómo modelar esta distribución de forma extraña (casi un J inverso)

25

Mi variable dependiente que se muestra a continuación no se ajusta a ninguna distribución de acciones que conozca. La regresión lineal produce residuales algo no normales, sesgados a la derecha que se relacionan con el Y pronosticado de una manera extraña (2º gráfico). ¿Alguna sugerencia para transformaciones u otras formas de obtener resultados más válidos y la mejor precisión predictiva? Si es posible, me gustaría evitar la categorización torpe en, digamos, 5 valores (por ejemplo, 0, lo%, med%, hi%, 1).

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

rolando2
fuente
77
Sería mejor que nos cuentes sobre estos datos y de dónde provienen: algo ha bloqueado una distribución que naturalmente se extiende más allá del intervalo . Es posible que haya utilizado algún método de medición o procedimiento estadístico que no sea del todo apropiado para sus datos. Intentar arreglar un error de este tipo con técnicas sofisticadas de ajuste de distribución, reexpresiones no lineales, binning, etc., agravaría el error, por lo que sería bueno sortear el problema por completo. [0,1]
whuber
2
@whuber: una buena idea, pero la variable se creó a través de un complejo sistema burocrático que desafortunadamente está escrito en piedra. No tengo la libertad de revelar la naturaleza de las variables involucradas aquí.
rolando2
1
Vale, valió la pena intentarlo. Estoy pensando que en lugar de transformar los datos, es posible que aún desee reconocer el mecanismo de sujeción en forma de un procedimiento de ML para hacer la regresión: esto sería similar a verlos como datos que están censurados tanto a la izquierda como a la derecha .
whuber
Pruebe la distribución beta con parámetros más pequeños que la unidad, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg
Alecos Papadopoulos
2
Este tipo de bañera o distribución en forma de U es común en los lectores de revistas donde muchas personas leerán un solo número de una publicación, por ejemplo, en el consultorio de un médico o de lo contrario son suscriptores que ven cada problema con un puñado de lectores intermedios. Varios comentarios y respuestas han apuntado a la distribución beta como una posible solución. La literatura con la que estoy familiarizado apunta al beta-binomial como la mejor opción de ajuste.
Mike Hunter

Respuestas:

47

Los métodos de regresión censurada pueden manejar datos como este. Asumen que los residuos se comportan como en la regresión lineal ordinaria, pero se han modificado para que

  1. (Censura izquierda): no se han cuantificado todos los valores más pequeños que un umbral bajo, que es independiente de los datos (pero puede variar de un caso a otro); y / o

  2. (Censura a la derecha): no se han cuantificado todos los valores mayores que un umbral alto, que es independiente de los datos (pero puede variar de un caso a otro).

"No cuantificado" significa que sabemos si un valor cae por debajo (o por encima) de su umbral, pero eso es todo.

Los métodos de adaptación suelen utilizar la máxima probabilidad. Cuando el modelo para la respuesta correspondiente a un vector X tiene la formaYX

YXβ+ε

con iid tiene una distribución común F σ con PDF f σ (donde σ son "parámetros molestos" desconocidos), entonces, en ausencia de censura, la probabilidad logarítmica de observaciones ( x i , y i ) esεFσfσσ(xi,yi)

Λ=i=1nlogfσ(yixiβ).

Con la censura presente, podemos dividir los casos en tres clases (posiblemente vacías): para los índices a n 1 , y i contiene los valores de umbral más bajos y representa los datos censurados a la izquierda ; para los índices i = n 1 + 1 a n 2 , y i se cuantifican; y para los índices restantes, el y i contiene los umbrales superiores valores de y representan derecha censuradoi=1n1yii=n1+1n2yiyidatos. La probabilidad de registro se obtiene de la misma manera que antes: es el registro del producto de las probabilidades.

Λ=i=1n1logFσ(yixiβ)+i=n1+1n2logfσ(yixiβ)+i=n2+1nlog(1Fσ(yixiβ)).

(β,σ)

En mi experiencia, tales métodos pueden funcionar bien cuando menos de la mitad de los datos están censurados; de lo contrario, los resultados pueden ser inestables.


Aquí hay un Rejemplo simple que usa el censRegpaquete para ilustrar cómo OLS y los resultados censurados pueden diferir (mucho) incluso con muchos datos. Reproduce cualitativamente los datos de la pregunta.

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

0.0050.0010.005

Usemos ambos lmy censRegpara ajustar una línea:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

Los resultados de esta regresión censurada, dada por print(fit), son

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

0.0010.0050.005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

El ajuste OLS, dado por print(fit.OLS), es

(Intercept)            x  
   0.001996     0.002345  

summary0.002864

A modo de comparación, limitemos la regresión a los datos cuantificados:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

¡Peor aún!

Algunas fotos resumen la situación.

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

Parcelas

00.01

Y0.00320.0037

whuber
fuente
Gran respuesta (+1). Si tuviéramos que eliminar visualmente los dos spkies censuradores, me parece que la variable dependiente tiene algo cercano a una distribución exponencial, como si los datos subyacentes fueran la longitud de algún proceso. ¿Es esto algo a tener en cuenta?
usuario603
@ user603 Simulé los valores cuantificados con parte de la parte superior del brazo de un gaussiano, en realidad :-). Tenemos que tener cuidado aquí, porque el modelo de probabilidad relevante se refiere a los residuos y no a la variable de respuesta en sí. Aunque es un poco complicado, uno puede hacer gráficos residuales censurados e incluso gráficos de probabilidad censurados para evaluar la bondad de ajuste a alguna distribución hipotética.
whuber
mi punto es que con un gaussiano doblemente censurado, el histograma de los valores sin censura debería ser algo plano, pero parecen estar disminuyendo suavemente a medida que nos alejamos de 0.
user603
1
@ user603 Ah, no, ese no es el caso: eche un vistazo al histograma de los valores cuantificados usted mismo. Parecen inclinarse casi linealmente hacia abajo, exactamente como en la pregunta.
whuber
2
Intenté la regresión censurada en mi conjunto de datos y los resultados se validaron mejor que los de OLS. Una buena adición a mi kit de herramientas: gracias.
rolando2
9

¿Están los valores siempre entre 0 y 1?

Si es así, puede considerar una distribución beta y una regresión beta.

Pero asegúrese de pensar en el proceso que conduce a sus datos. También puede hacer un modelo inflado 0 y 1 (los modelos inflados 0 son comunes, probablemente necesite extender a 1 inflado por usted mismo). La gran diferencia es si esos picos representan grandes cantidades de 0 y 1 exactos o solo valores cercanos a 0 y 1.

Puede ser mejor consultar con un estadístico local (con un acuerdo de confidencialidad para que pueda discutir los detalles de dónde provienen los datos) para encontrar el mejor enfoque.

Greg Snow
fuente
2
01
Sí, siempre en el rango de 0% a 1% ... Y estos picos están exactamente en 0% y 1%. ¿Los modelos inflados con cero o cero y uno son aplicables a datos sin conteo como estos?
rolando2
1
Hay un cero normal inflado, pero eso no se aplica aquí.
Peter Flom - Restablece a Monica
Con 0 y 1 exactos pero continuos entre sí, parece que puede haber una distribución continua subyacente con valores fuera de esa región redondeados a 0 o 1. Este sería un caso doblemente censurado y los modelos podrían ajustarse utilizando esa idea.
Greg Snow
4

En concordancia con el consejo de Greg Snow, he escuchado que los modelos beta también son útiles en tales situaciones (ver Smithson & verkuilen, 2006, A Better Lemon Squeezer ), así como la regresión cuantil ( Bottai et al., 2010 ), pero estos Parecen efectos de piso y techo tan pronunciados que pueden ser inapropiados (especialmente la regresión beta).

Otra alternativa sería considerar los tipos de modelos de regresión censurados, en particular el Modelo Tobit , donde consideramos que los resultados observados son generados por alguna variable latente subyacente que es continua (y presumiblemente normal). No voy a decir que este modelo continuo subyacente es razonable dado su histograma, pero puede encontrar algo de apoyo a medida que vea que la distribución (ignorando el piso) tiene una densidad más alta a valores más bajos del instrumento y se reduce lentamente a valores más altos. valores.

Sin embargo, buena suerte, que la censura es tan dramática que es difícil imaginar recuperar mucha información útil dentro de los extremos. Me parece que casi la mitad de su muestra cae dentro de los contenedores de piso y techo.

Andy W
fuente