Cómo calcular la desviación estándar 2D, con media 0, limitada por límites

10

Mi problema es el siguiente: dejo caer 40 bolas a la vez desde cierto punto, a pocos metros del piso. Las bolas ruedan y se detiene. Utilizando la visión por computadora, calculo el centro de masa en el plano XY. Solo me interesa la distancia desde el centro de masa a cada bola, que se calcula utilizando una geometría simple. Ahora, quiero saber la desviación estándar unilateral del centro. Entonces, podría saber que un cierto número de bolas están dentro de un radio estándar, más bolas dentro de un radio estándar de 2 * y así sucesivamente. ¿Cómo calculo la desviación estándar unilateral? Un enfoque normal indicaría que la mitad de las bolas estarán en el "lado negativo" de 0 media. Por supuesto, esto no tiene sentido en este experimento. ¿Tengo que asegurarme de que las bolas se ajusten a la distribución estándar? Gracias por cualquier ayuda.

K_scheduler
fuente

Respuestas:

13

Para caracterizar la cantidad de dispersión 2D alrededor del centroide, solo desea la distancia cuadrática media (raíz),

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

En esta fórmula, son las coordenadas de los puntos y su centroide (punto de promedios) es( ˉ x , ˉ y ) .(xi,yi),i=1,2,,n(x¯,y¯).


La pregunta pide la distribución de las distancias. Cuando las bolas tienen una distribución normal isotrópica bivariada alrededor de su centroide, que es una suposición estándar y físicamente razonable, la distancia al cuadrado es proporcional a una distribución chi-cuadrado con dos grados de libertad (uno para cada coordenada). Esta es una consecuencia directa de una definición de la distribución de chi-cuadrado como una suma de cuadrados de variables normales estándar independientes, porque es una combinación lineal de variables normales independientes con expectativa Escribir la varianza común deE[xi- ˉ x ]=n-1

xix¯=n1nxiji1nxj
xiσ2E[(xi- ˉ x )2]=Var(xi- ˉ x )=( n - 1
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xicomo , La suposición de anisotropía es que tiene la misma distribución que y son independientes de ellos, por lo que se mantiene un resultado idéntico para la distribución de . Esto establece la constante de proporcionalidad: los cuadrados de las distancias tienen una distribución chi-cuadrado con dos grados de libertad, escalados por .σ2yjxi(yj- ˉ y )2n-1
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxi(yjy¯)2n1nσ2

La prueba más severa de estas ecuaciones es el caso , porque entonces la fracción la que más difiere de . Simulando el experimento, tanto para como , y sobreplotando los histogramas de distancias cuadradas con las distribuciones escaladas de chi-cuadrado (en rojo), podemos verificar esta teoría.n - 1n=2 1n=2n=40n1n1n=2n=40

Figura

Cada fila muestra los mismos datos: a la izquierda, el eje x es logarítmico; a la derecha muestra la distancia al cuadrado real. El verdadero valor de para estas simulaciones se estableció en .1σ1

Estos resultados son para 100,000 iteraciones con y 50,000 iteraciones con . Los acuerdos entre los histogramas y las densidades de chi-cuadrado son excelentes.n = 40n=2n=40


Aunque es desconocido, se puede estimar de varias maneras. Por ejemplo, la distancia cuadrática media debe ser veces la media de , que es . Con , por ejemplo, estimar como veces la distancia cuadrática media. Por lo tanto, una estimación de sería veces la distancia RMS. Usando valores de la , podemos decir que:n - 1σ2χ 2 2 2n=40σ240n1nσ2χ222n=40σ2sigma4039/2σ χ 2 240/78χ22

  • Aproximadamente el 39% de las distancias será menor que , porque el 39% de una es menor que . chi 2 2 139/40σ^χ221

  • Aproximadamente el 78% de las distancias será menor que veces , porque el 78% de una es menor que .3 chi 2 2 339/40σ^χ223

Y así sucesivamente, para cualquier múltiplo que quiera usar en lugar de o . Como verificación, en las simulaciones para trazadas previamente, las proporciones reales de distancias al cuadrado menores que veces fueron3 n = 40 1 , 2 , , 10 n - 113n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

Las proporciones teóricas son

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

El acuerdo es excelente.


Aquí hay un Rcódigo para realizar y analizar las simulaciones.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
whuber
fuente
2
Gracias por una respuesta muy completa. No puedo entender cómo la fórmula RMS puede describir la desviación estándar sin dividir por el número de bolas. Si lo compara con http://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformatics , han dividido la suma entre N. Si la suma se divide entre N o N-1 (ya que 40 bolas es solo un selección de una población de bolas?)
K_scheduler
Después de hacer los cálculos nuevamente, parece que sqrt (SDx ^ 2 + SDy ^ 2) es lo que busco. Esto me dará un radio para un círculo que contiene todas las bolas con una probabilidad del 65%, ¿verdad?
K_scheduler
Esa es una fórmula equivalente para el RMS, pero el valor del 65% es incorrecto, como se explica en esta respuesta.
whuber
2
@nali Todos esos puntos están claramente expuestos en mi respuesta aquí.
whuber
44
@nali Tus publicaciones aquí van más allá de los límites de la propiedad en su rudeza y ataques ad hominem . Aunque no estoy preocupado por ser considerado ignorante o estúpido, como moderador de este sitio tengo que preocuparme por mantener el discurso civil y, por lo tanto, no puedo tolerar la vituperación que está publicando. En consecuencia, he eliminado tu último comentario. Si veo comentarios suyos que son igualmente groseros, hacia cualquier persona, los eliminaré sin previo aviso y yo (u otros moderadores) tomaré medidas inmediatas para limitar sus interacciones en este sitio.
whuber
4

Creo que tienes algunas cosas un poco confusas. Es cierto que la distancia no puede ser negativa, pero eso no afecta el cálculo de la desviación estándar. Aunque significa que la distribución de distancias no puede ser exactamente normal, aún podría estar cerca; pero incluso si está lejos de ser normal, todavía hay una desviación estándar.

Además, no existe una desviación estándar de "un lado": puede estar pensando en pruebas de hipótesis (que pueden ser de un lado o de dos lados). En tu título, dices que la media es 0, pero la distancia media no será 0 (¡a menos que las bolas estén en una pila de 40 bolas de alto!) Y dices que hay límites, podría haber límites, si las bolas se caen una habitación, entonces no pueden estar más lejos del centro que la distancia a la pared más cercana. Pero a menos que algunas de las bolas reboten contra una pared, eso no afectará las cosas.

Entonces, una vez que tenga las 40 distancias, calcule la desviación estándar (y media, mediana, rango intercuartil, etc.) utilizando métodos estándar. También puede hacer trazados de la distancia (p. Ej., Diagrama normal cuantil, diagrama de caja) para ver si se distribuye aproximadamente de manera normal (si eso es de interés).

Peter Flom - Restablece a Monica
fuente
Gracias Peter, no me expresé correctamente. Déjame intentar aclarar: imagina la escena desde arriba. Si calcula la distancia media, se ilustrará como un círculo alrededor del centro de masa (distancia media = radio). Ahora, la desviación +/- estándar de esto dará como resultado un círculo más pequeño y un círculo más grande. No quiero saber la desviación estándar de la distancia media al centro de masa, sino la desviación estándar desde el centro de masa hacia afuera. En otras palabras, dentro de qué radio desde el centro de masa se encuentra el 68,2% (una desviación estándar) de las bolas situadas.
K_scheduler
Oh ok Entonces creo que esto no es un problema de estadística sino un problema de matemáticas; se sabe dónde caerá el 68.2% ... Olvidé la respuesta pero involucra . π
Peter Flom - Restablece a Monica
Puede que tengas razón en tu primera respuesta. Por lo que he encontrado, usar la desviación estándar radial debería hacer el truco. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler
1

Ha pasado un tiempo desde que se hizo esto, pero la respuesta a la pregunta es que esta es la distribución 2D llamada distribución de Rayleigh. Aquí se supone que el factor de forma de Rayleigh es igual a las desviaciones estándar de las coordenadas X e Y. En la práctica, el valor del factor de forma se calcularía a partir del promedio agrupado de la desviación estándar de X e Y.

comenzando con e

XN(μx,σx2)
YN(μy,σy2)

usar distribución normal bivariante.

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

traducir al punto y asumir .

(μx,μy)
ρ=0

También suponga que así que reemplace ambos con

σx2=σy2
σ2

entonces la distribución 2-D se expresa como el radio alrededor del punto que se conoce como la distribución de Rayleigh .

(μx,μy)

PDF(r;σ)=rσ2exp(r22σ2)
donde y
σ=σx=σy
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

Por supuesto, esto es para la distribución continua. Para una muestra de solo 40 bolas, no hay una solución exacta. Tendría que hacer un análisis de Monte Carlo con una muestra de 40 bolas. Taylor, MS y Grubbs, Frank E. (1975). "Distribuciones de probabilidad aproximadas para la extensión extrema" encontró estimaciones para la distribución de Chi y el log-normal para eso se ajustaría a la distribución de una muestra.


Editar: a pesar de la duda de Wuber, las proporciones teóricas que calculó son:

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

A partir de la función CDF, los valores acumulativos de Sigma para r (en sigmas) equivalen al rango de:

0-1, 0-2, 0-3, ..., 0-10

son:

0.3935, 0.6321, 0.7769, 0.8647, 0.9179, 0.9502, 0.9698, 0.9817, 0.9889, 0.9933

MaxW
fuente
Gracias por nombrar la distribución. Sin embargo, al (1) no diferenciar entre el parámetro de distribución y las estimaciones de ese parámetro derivadas de los datos, (2) no declarar los supuestos (fuertes) necesarios sobre la distribución de las bolas, y (3) al ser vago, corre el riesgo lectores engañosos. De hecho, no está claro cuál es la referencia de su "esto": ¿sería la distribución de ubicaciones de las bolas? (No.) ¿La distribución del centro de masa? (Sí, pero con un parámetro de escala que difiere de la desviación estándar de las bolas). ¿Le gustaría aclarar su respuesta?
whuber
llenó los huecos ....
MaxW
Gracias por las aclaraciones, Max. Como una simple verificación de la exactitud de su respuesta, consideremos una bola en lugar de . Su respuesta parece afirmar que la distribución de la distancia entre esta bola y el centro de masa de todas las bolas es una distribución de Rayleigh. Desafortunadamente, en este caso esa distancia siempre es cero. (La pregunta lo describe específicamente como "la distancia desde el centro de masa a cada bola, que se calcula usando una geometría simple".) Eso sugiere que su respuesta puede ser incorrecta en todos los casos, incluso para bolas. 404040
whuber
La distribución es sobre el centro de masa.
MaxW
El CDF está configurado para una bola, por supuesto. Desde el CDF, el 39% de las bolas caerán dentro de un círculo de radio σ, 86% dentro de 2σ y 99% dentro de 3σ.
MaxW
-1

La distribución normal, tanto los valores positivos como los negativos, tiene sentido si reconoce que esta distribución normal es por radio o "distancia desde el centroide". La otra variable, ángulo, es aleatoria y se distribuye uniformemente desde 0-pi.

cortar a tajos
fuente
¡El radio, que nunca puede ser negativo, definitivamente no tendrá una distribución Normal!
whuber