¿Existe una alternativa (más fuerte?) A la transformación de raíz cuadrada de arcsin para datos de porcentaje / proporción? En el conjunto de datos en el que estoy trabajando en este momento, la marcada heterocedasticidad permanece después de aplicar esta transformación, es decir, la gráfica de los residuos frente a los valores ajustados sigue siendo muy romboidal.
Editado para responder a los comentarios: los datos son decisiones de inversión de participantes experimentales que pueden invertir 0-100% de una dotación en múltiplos de 10%. También he examinado estos datos utilizando la regresión logística ordinal, pero me gustaría ver qué produciría un glm válido. Además, pude ver que la respuesta es útil para el trabajo futuro, ya que la raíz cuadrada de arcsin parece usarse como una solución única para todos en mi campo y no había encontrado ninguna alternativa empleada.
fuente
Respuestas:
Seguro. John Tukey describe una familia de transformaciones (crecientes, uno a uno) en EDA . Se basa en estas ideas:
Para poder extender las colas (hacia 0 y 1) según lo controlado por un parámetro.
Sin embargo, para que coincida con los valores originales (no transformadas) cerca de la mitad (1 / 2 ), lo que hace la transformación más fácil de interpretar.
Para hacer la reexpresión simétrica aproximadamente Es decir, si se reexpresa como , entonces se como .1 / 2. pags F( p ) 1 - p - f( p )
Si comienza con cualquier función monótona creciente diferenciable en 1 / 2 se puede ajustar para cumplir con los criterios segundo y tercero: acaba de definirsol: ( 0 , 1 ) → R 1 / 2
El numerador es explícitamente simétrico (criterio( 3 ) ), porque intercambiar pags con 1 - p invierte la resta, por lo tanto, la niega. Para ver que ( 2 ) se cumple, nota que el denominador es precisamente el factor necesario para hacer F′(1/2)=1. Recordemos que la aproxima derivados del comportamiento local de una función con una función lineal; una pendiente de 1=1:1 significa que f(p)≈p (más una constante −1/2 ) cuando p está suficientemente cerca de 1/2. Este es el sentido en el que los valores originales se "combinan cerca de la media".
Tukey llama a esto la versión "doblada" deg . Su familia consiste en las transformaciones de potencia y log g(p)=pλ donde, cuando λ=0 , consideramos g(p)=log(p) .
Veamos algunos ejemplos. Cuandoλ = 1 / 2 obtenemos la raíz plegada, o "Froot," f(p)=1/2−−−√(p–√−1−p−−−−√) . Cuandoλ=0 tenemos el logaritmo plegado, o "flog",f(p)=(log(p)−log( 1 - p ) ) / 4. Evidentemente, esto es solo un múltiplo constante de latransformaciónlogit,Iniciar sesión( p1 - p) .
En este gráfico corresponde la línea azul paraλ = 1 , la línea roja intermedia a λ = 1 / 2 , y la línea verde extrema a λ = 0 . La línea de oro punteada es la transformación del arcoseno, arcsin( 2 p - 1 ) / 2 = arcosin( p-√) - arcsin( 1 / 2---√) . El "juego" de las pistas (criterio( 2 ) ) hace que todos los gráficos para coincidir cerca dep = 1 / 2.
Los valores más útiles del parámetroλ encuentran entre 1 y 0 0 . (Usted puede hacer las colas aún más pesado con valores negativos de λ , pero este uso es poco frecuente.) λ = 1 no hacer nada en absoluto, excepto recenter los valores ( F( P ) = p - 1 / 2 ). Como λ se contrae hacia cero, las colas consiguen tirados más hacia ± ∞ . Esto satisface el criterio n. ° 1. Por lo tanto, al elegir un valor apropiado de λ , puede controlar la "fuerza" de esta reexpresión en las colas.
fuente
Una forma de incluir es incluir una transformación indexada. Una forma general es usar cualquier función de distribución acumulativa simétrica (inversa), de modo que y F ( x ) = 1 - F ( - x ) . Un ejemplo es la distribución t de Student estándar, con ν grados de libertad. El parámetro v controla la rapidez con que la variable transformada se desvía al infinito. Si establece v = 1, entonces tiene la transformación arctan:F( 0 ) = 0.5 F( x ) = 1 - F( - x ) ν v v = 1
Esto es mucho más extremo que arcsine, y más extremo que logit transform. Tenga en cuenta que Logit transformada puede ser más o menos aproximada utilizando la distribución t con . SO de alguna manera proporciona un enlace aproximado entre logit y probit ( ν = ∞ ) transforma, y una extensión de ellos a transformaciones más extremas.ν≈ 8 ν= ∞
El problema con estas transformaciones es que dan cuando la proporción observada es igual a 1 o 0 . Así que hay que reducir el tamaño de alguna manera éstos de alguna manera - la forma más sencilla es añadir + 1 "éxitos" y + 1 "fracasos".± ∞ 1 0 0 + 1 + 1
fuente