Tratamiento de valores atípicos producidos por Kurtosis

10

Me preguntaba si alguien podría ayudarme con información sobre Kurtosis (es decir, ¿hay alguna forma de transformar sus datos para reducirlos?)

Tengo un conjunto de datos de cuestionarios con una gran cantidad de casos y variables. Para algunas de mis variables, los datos muestran valores de curtosis bastante altos (es decir, una distribución leptokurtica) que se deriva del hecho de que muchos de los participantes dieron exactamente la misma puntuación para la variable. Tengo un tamaño de muestra particularmente grande, por lo que de acuerdo con el teorema del límite central, las violaciones de la normalidad aún deberían estar bien.

Sin embargo, el problema es el hecho de que los niveles particularmente altos de Kurtosis están produciendo una serie de valores atípicos univariantes en mi conjunto de datos. Como tal, incluso si transformo los datos, o elimino / ajusto los valores atípicos, los altos niveles de curtosis significan que los siguientes puntajes más extremos se convierten automáticamente en valores atípicos. Mi objetivo es usar (Análisis de función discriminante). Se dice que DFA es robusto a las desviaciones de la normalidad siempre que la violación sea causada por asimetría y no por valores atípicos. Además, también se dice que DFA está particularmente influenciado por valores atípicos en los datos (Tabachnick y Fidel).

¿Alguna idea de cómo solucionar esto? (Mi pensamiento inicial era alguna forma de controlar la curtosis, pero ¿no es algo bueno si la mayoría de mi muestra está dando calificaciones similares?)

Kyle Brown
fuente

Respuestas:

8

La forma obvia de "sentido común" para resolver su problema es

  1. Obtenga la conclusión utilizando el conjunto de datos completo. es decir, ¿qué resultados declararás ignorando los cálculos intermedios?
  2. Obtenga la conclusión utilizando el conjunto de datos con dichos "valores atípicos" eliminados. es decir, ¿qué resultados declararás ignorando los cálculos intermedios?
  3. Compare el paso 2 con el paso 1
  4. Si no hay diferencia, olvide que incluso tuvo un problema. Los valores atípicos son irrelevantes para su conclusión . Los valores atípicos pueden influir en alguna otra conclusión que pueda haberse extraído utilizando estos datos, pero esto es irrelevante para su trabajo. Es el problema de otra persona.
  5. Si hay una diferencia, entonces básicamente tiene una cuestión de "confianza". ¿Son reales estos "valores atípicos" en el sentido de que realmente representan algo sobre su análisis? ¿O los "valores atípicos" son malos porque provienen de alguna "fuente contaminada"?

En la situación 5, básicamente tiene un caso de cualquier "modelo" que haya utilizado para describir que la "población" está incompleto: hay detalles que no se han especificado, pero que son importantes para las conclusiones. Hay dos formas de resolver esto, que corresponden a los dos escenarios de "confianza":

  1. P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

Se puede demostrar que la mayoría de los procedimientos "estándar" son aproximaciones a este tipo de modelos. La más obvia es al considerar el caso 1, donde se ha asumido que la varianza es constante entre las observaciones. Al relajar esta suposición en una distribución, obtienes una distribución de mezcla. Esta es la conexión entre distribuciones "normales" y "t". Lo normal tiene una varianza fija, mientras que la "t" se mezcla sobre diferentes variaciones, la cantidad de "mezcla" depende de los grados de libertad. DF alto significa mezcla baja (los valores atípicos son poco probables), DF bajo significa mezcla alta (los valores atípicos son probables). De hecho, podría tomar el caso 2 como un caso especial del caso 1, donde las observaciones "buenas" son normales, y las observaciones "malas" son Cauchy (t con 1 DF).

probabilidadislogica
fuente
Qué excelente respuesta, @probabilityislogic
Peter Flom - Restablece a Monica
Solo una nota aclaratoria: la clasificación óptima requiere el conocimiento de las verdaderas distribuciones multivariadas. Si puede estimar bien estas distribuciones, entonces la función de clasificación resultante es casi óptima. Los valores atípicos (como lo indica la curtosis) son realmente problemáticos porque no hay pocos datos en la región para estimar la densidad. Con datos multivariados, la maldición de la dimensionalidad también contribuye a este problema.
Peter Westfall