Transformación de datos de proporción: cuando la raíz cuadrada de arcsin no es suficiente

20

¿Existe una alternativa (más fuerte?) A la transformación de raíz cuadrada de arcsin para datos de porcentaje / proporción? En el conjunto de datos en el que estoy trabajando en este momento, la marcada heterocedasticidad permanece después de aplicar esta transformación, es decir, la gráfica de los residuos frente a los valores ajustados sigue siendo muy romboidal.

Editado para responder a los comentarios: los datos son decisiones de inversión de participantes experimentales que pueden invertir 0-100% de una dotación en múltiplos de 10%. También he examinado estos datos utilizando la regresión logística ordinal, pero me gustaría ver qué produciría un glm válido. Además, pude ver que la respuesta es útil para el trabajo futuro, ya que la raíz cuadrada de arcsin parece usarse como una solución única para todos en mi campo y no había encontrado ninguna alternativa empleada.

Freya Harrison
fuente
2
¿De qué valores se ajustan? Cual es tu modelo arcsin es (aproximadamente) estabilizador de varianza para binomial, pero aún tendrá efectos de "borde" si las proporciones son cercanas a 0 o 1, porque la parte normal efectivamente se trunca.
probabilidadislogica
1
Permítanme duplicar lo que ha dicho @probabilityislogic y también preguntar de dónde provienen los datos. Puede haber algo en el problema que sugiera otra transformación, u otro modelo completamente, que podría ser más apropiado y / o interpretable.
JMS
1
@prob @JMS ¿Por qué no dejamos que el OP, que creo que conoce bastante las estadísticas, intente primero la ruta de transformación? Entonces, si eso no funciona, sería fructífero comenzar un nuevo hilo en el que el problema se presenta con menos precisión. Sus comentarios serían apropiados en ese contexto.
whuber
1
Hay enormes problemas con la transformación arcoseno raíz cuadrada, que se describen sin rodeos en el documento titulado amusingly el arcoseno es asinine: el análisis de proporciones en ecología
MKT - Restablecer Monica
1
@mkt Gracias por la referencia, esto ha ido directamente a la conferencia del próximo trimestre sobre modelos lineales generalizados.
Freya Harrison

Respuestas:

28

Seguro. John Tukey describe una familia de transformaciones (crecientes, uno a uno) en EDA . Se basa en estas ideas:

  1. Para poder extender las colas (hacia 0 y 1) según lo controlado por un parámetro.

  2. Sin embargo, para que coincida con los valores originales (no transformadas) cerca de la mitad ( 1/2 ), lo que hace la transformación más fácil de interpretar.

  3. Para hacer la reexpresión simétrica aproximadamente Es decir, si se reexpresa como , entonces se como .1/2.pF(pags)1-pags-F(pags)

Si comienza con cualquier función monótona creciente diferenciable en 1 / 2 se puede ajustar para cumplir con los criterios segundo y tercero: acaba de definirsol:(0 0,1)R1/ /2

F(pags)=sol(pags)-sol(1-pags)2sol(1/ /2).

El numerador es explícitamente simétrico (criterio (3) ), porque intercambiar pags con 1-pags invierte la resta, por lo tanto, la niega. Para ver que (2) se cumple, nota que el denominador es precisamente el factor necesario para hacer F(1/ /2)=1) Recordemos que la aproxima derivados del comportamiento local de una función con una función lineal; una pendiente de 1=1:1 significa que F(pags)pags(más una constante -1/ /2 ) cuando pags está suficientemente cerca de 1/ /2) Este es el sentido en el que los valores originales se "combinan cerca de la media".

Tukey llama a esto la versión "doblada" de sol . Su familia consiste en las transformaciones de potencia y log sol(pags)=pagsλ donde, cuando λ=0 0 , consideramos sol(pags)=Iniciar sesión(pags) .

Veamos algunos ejemplos. Cuando λ=1/ /2 obtenemos la raíz plegada, o "Froot," F(pags)=1/ /2(pags-1-pags). Cuandoλ=0 0tenemos el logaritmo plegado, o "flog",F(pags)=(Iniciar sesión(pags)-Iniciar sesión(1-pags))/ /4) Evidentemente, esto es solo un múltiplo constante de latransformaciónlogit,Iniciar sesión(pags1-pags).

Gráficos para lambda = 1, 1/2, 0 y arcsin

En este gráfico corresponde la línea azul para λ=1 , la línea roja intermedia a λ=1/ /2 , y la línea verde extrema a λ=0 0 . La línea de oro punteada es la transformación del arcoseno, arcsin(2pags-1)/ /2=arcsin(pags)-arcsin(1/ /2). El "juego" de las pistas (criterio(2)) hace que todos los gráficos para coincidir cerca depags=1/ /2)

Los valores más útiles del parámetro λ encuentran entre 1 y 0 0 . (Usted puede hacer las colas aún más pesado con valores negativos de λ , pero este uso es poco frecuente.) λ=1 no hacer nada en absoluto, excepto recenter los valores ( F(pags)=pags-1/ /2 ). Como λ se contrae hacia cero, las colas consiguen tirados más hacia ± . Esto satisface el criterio n. ° 1. Por lo tanto, al elegir un valor apropiado de λ , puede controlar la "fuerza" de esta reexpresión en las colas.

whuber
fuente
Whuber, ¿conoces alguna función R que haga esta automáticamente?
John
1
@John No, no lo hago, pero es lo suficientemente simple de implementar.
Whuber
2
No lo vi como básicamente difícil, pero sería bueno si hubiera algo como las transformaciones de boxcox que trazan automáticamente la mejor selección para lambda. Sí, no es terrible de implementar ...
John
2
Gracias whuber, este es exactamente el tipo de cosas que estaba buscando y el gráfico es realmente útil. Definitivamente de acuerdo con John en que algo como el boxcox sería útil, pero esto parece lo suficientemente simple como para trabajar.
Freya Harrison
7

Una forma de incluir es incluir una transformación indexada. Una forma general es usar cualquier función de distribución acumulativa simétrica (inversa), de modo que y F ( x ) = 1 - F ( - x ) . Un ejemplo es la distribución t de Student estándar, con ν grados de libertad. El parámetro v controla la rapidez con que la variable transformada se desvía al infinito. Si establece v = 1, entonces tiene la transformación arctan:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Esto es mucho más extremo que arcsine, y más extremo que logit transform. Tenga en cuenta que Logit transformada puede ser más o menos aproximada utilizando la distribución t con . SO de alguna manera proporciona un enlace aproximado entre logit y probit ( ν = ) transforma, y ​​una extensión de ellos a transformaciones más extremas.ν8ν=

El problema con estas transformaciones es que dan cuando la proporción observada es igual a 1 o 0 . Así que hay que reducir el tamaño de alguna manera éstos de alguna manera - la forma más sencilla es añadir + 1 "éxitos" y + 1 "fracasos".±10+1+1

probabilidadislogica
fuente
2
Por varias razones, Tukey recomienda agregar +1/6 a los recuentos. Tenga en cuenta que esta respuesta es un caso especial del enfoque plegable de Tukey que describí: cualquier CDF con PDF positivo es monótono; plegar un CDF simétrico lo deja sin cambios.
whuber
2
ν8p01ν=5p1/2tνlogit
2
t8f(x)=ex(1+ex)25
55
@whuber Una razón para agregar 1/6 a los recuentos es que el recuento "iniciado" resultante se aproxima a la mediana posterior asumiendo una distribución binomial con Jeffreys antes (escribo un poco sobre esto aquí: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-flogs ). Sin embargo, no sé si esta fue la razón de Tukey para agregar 1/6. ¿Sabes cuál pudo haber sido su razón?
Rasmus Bååth
44
xxi<XXyo=X(Xyo)
whuber