Mi variable dependiente que se muestra a continuación no se ajusta a ninguna distribución de acciones que conozca. La regresión lineal produce residuales algo no normales, sesgados a la derecha que se relacionan con el Y pronosticado de una manera extraña (2º gráfico). ¿Alguna sugerencia para transformaciones u otras formas de obtener resultados más válidos y la mejor precisión predictiva? Si es posible, me gustaría evitar la categorización torpe en, digamos, 5 valores (por ejemplo, 0, lo%, med%, hi%, 1).
25
Respuestas:
Los métodos de regresión censurada pueden manejar datos como este. Asumen que los residuos se comportan como en la regresión lineal ordinaria, pero se han modificado para que
(Censura izquierda): no se han cuantificado todos los valores más pequeños que un umbral bajo, que es independiente de los datos (pero puede variar de un caso a otro); y / o
(Censura a la derecha): no se han cuantificado todos los valores mayores que un umbral alto, que es independiente de los datos (pero puede variar de un caso a otro).
"No cuantificado" significa que sabemos si un valor cae por debajo (o por encima) de su umbral, pero eso es todo.
Los métodos de adaptación suelen utilizar la máxima probabilidad. Cuando el modelo para la respuesta correspondiente a un vector X tiene la formaY X
con iid tiene una distribución común F σ con PDF f σ (donde σ son "parámetros molestos" desconocidos), entonces, en ausencia de censura, la probabilidad logarítmica de observaciones ( x i , y i ) esε Fσ fσ σ (xi,yi)
Con la censura presente, podemos dividir los casos en tres clases (posiblemente vacías): para los índices a n 1 , y i contiene los valores de umbral más bajos y representa los datos censurados a la izquierda ; para los índices i = n 1 + 1 a n 2 , y i se cuantifican; y para los índices restantes, el y i contiene los umbrales superiores valores de y representan derecha censuradoi=1 n1 yi i=n1+1 n2 yi yi datos. La probabilidad de registro se obtiene de la misma manera que antes: es el registro del producto de las probabilidades.
En mi experiencia, tales métodos pueden funcionar bien cuando menos de la mitad de los datos están censurados; de lo contrario, los resultados pueden ser inestables.
Aquí hay un
R
ejemplo simple que usa elcensReg
paquete para ilustrar cómo OLS y los resultados censurados pueden diferir (mucho) incluso con muchos datos. Reproduce cualitativamente los datos de la pregunta.Usemos ambos
lm
ycensReg
para ajustar una línea:Los resultados de esta regresión censurada, dada por
print(fit)
, sonEl ajuste OLS, dado por
print(fit.OLS)
, essummary
A modo de comparación, limitemos la regresión a los datos cuantificados:
¡Peor aún!
Algunas fotos resumen la situación.
fuente
¿Están los valores siempre entre 0 y 1?
Si es así, puede considerar una distribución beta y una regresión beta.
Pero asegúrese de pensar en el proceso que conduce a sus datos. También puede hacer un modelo inflado 0 y 1 (los modelos inflados 0 son comunes, probablemente necesite extender a 1 inflado por usted mismo). La gran diferencia es si esos picos representan grandes cantidades de 0 y 1 exactos o solo valores cercanos a 0 y 1.
Puede ser mejor consultar con un estadístico local (con un acuerdo de confidencialidad para que pueda discutir los detalles de dónde provienen los datos) para encontrar el mejor enfoque.
fuente
En concordancia con el consejo de Greg Snow, he escuchado que los modelos beta también son útiles en tales situaciones (ver Smithson & verkuilen, 2006, A Better Lemon Squeezer ), así como la regresión cuantil ( Bottai et al., 2010 ), pero estos Parecen efectos de piso y techo tan pronunciados que pueden ser inapropiados (especialmente la regresión beta).
Otra alternativa sería considerar los tipos de modelos de regresión censurados, en particular el Modelo Tobit , donde consideramos que los resultados observados son generados por alguna variable latente subyacente que es continua (y presumiblemente normal). No voy a decir que este modelo continuo subyacente es razonable dado su histograma, pero puede encontrar algo de apoyo a medida que vea que la distribución (ignorando el piso) tiene una densidad más alta a valores más bajos del instrumento y se reduce lentamente a valores más altos. valores.
Sin embargo, buena suerte, que la censura es tan dramática que es difícil imaginar recuperar mucha información útil dentro de los extremos. Me parece que casi la mitad de su muestra cae dentro de los contenedores de piso y techo.
fuente