¿Por qué se recomienda la transformación de raíz cuadrada para los datos de conteo?

57

A menudo se recomienda sacar la raíz cuadrada cuando tiene datos de conteo. (Para algunos ejemplos en CV, vea la respuesta de @ HarveyMotulsky aquí , o la respuesta de @ whuber aquí .) Por otro lado, cuando se ajusta un modelo lineal generalizado con una variable de respuesta distribuida como Poisson, el registro es el enlace canónico . Esto es algo así como tomar una transformación logarítmica de sus datos de respuesta (aunque más exactamente es tomar una transformación logarítmica de , el parámetro que rige la distribución de la respuesta). Por lo tanto, existe cierta tensión entre estos dos. λ

  • ¿Cómo se concilia esta discrepancia (aparente)?
  • ¿Por qué la raíz cuadrada sería mejor que el logaritmo?
gung - Restablece a Monica
fuente

Respuestas:

45

La raíz cuadrada es aproximadamente estabilizadora de varianza para el Poisson . Hay una serie de variaciones en la raíz cuadrada que mejoran las propiedades, como agregar 38 antes de sacar la raíz cuadrada, o elFreeman-Tukey(X+X+1 , aunque a menudo también se ajusta para la media).

ingrese la descripción de la imagen aquí

La transformación de la raíz cuadrada mejora un poco la simetría, aunque no tan bien como la 23 potencias [1]:

ingrese la descripción de la imagen aquí

Si particularmente desea una casi normalidad (siempre y cuando el parámetro de Poisson no sea realmente pequeño) y no le importe / pueda ajustar la heterocedasticidad, pruebe 23

y=log(y+c)0c0.40.5μ120.43

En cuanto a por qué las personas eligen una transformación sobre otra (o ninguna), eso es realmente una cuestión de lo que están haciendo para lograr.

[1]: Parcelas modeladas después de las tramas de Henrik Bengtsson en su folleto "Modelos lineales generalizados y residuos transformados" ver aquí (ver primera diapositiva en la p4). Agregué un poco de y-jitter y omití las líneas.

Glen_b
fuente
1
(0,+)(,+)λ
2
Xy
1
+1 La raíz cuadrada es simplemente un punto de partida para tratar con datos de conteo. El logaritmo también es una buena opción. Los datos a menudo le dirán cuál tiene más éxito en la obtención de una descripción útil y sucinta. Gung, en la respuesta a la que te refieres , la demostración de que la raíz cuadrada era una buena opción radica en la distribución simétrica de los residuos no periféricos aparentes en la figura de la derecha. Cuando varía los parámetros de la simulación, encontrará que se mantiene la simetría.
whuber
1
@Glen No dije que los registros siempre sean una buena opción. Pero a veces son superiores a las raíces. Cuando aparecen conteos cero, entonces sí, necesita un logaritmo "iniciado" . Otros hilos aquí han discutido formas de obtener un valor inicial . Cuando no hay recuentos de cero en los datos, no habrá ningún problema con los registros.
whuber
2
x+3/8xx+ccx+3/8