Cuando los datos tienen una distribución gaussiana, ¿cuántas muestras la caracterizarán?

Los datos gaussianos distribuidos en una sola dimensión requieren dos parámetros para caracterizarlo (media, varianza), y se rumorea que alrededor de 30 muestras seleccionadas al azar suelen ser suficientes para estimar estos parámetros con una confianza razonablemente alta. Pero, ¿qué sucede a medida que aumenta el número de dimensiones?

En dos dimensiones (por ejemplo, altura, peso) se necesitan 5 parámetros para especificar una elipse de "mejor ajuste". En tres dimensiones, esto se eleva a 9 parámetros para describir un elipsoide, y en 4-D se necesitan 14 parámetros. Estoy interesado en saber si el número de muestras requeridas para estimar estos parámetros también aumenta a una tasa comparable, a una tasa más lenta o (¡por favor no!) A una tasa más alta. Mejor aún, si hubiera una regla general ampliamente aceptada que sugiera cuántas muestras se requieren para caracterizar una distribución gaussiana en un número dado de dimensiones, sería bueno saberlo.

Para ser más precisos, supongamos que queremos definir un límite simétrico de "mejor ajuste" centrado en el punto medio dentro del cual podemos estar seguros de que caerá el 95% de todas las muestras. Quiero saber cuántas muestras pueden tomar para encontrar los parámetros para aproximar este límite (intervalo en 1-D, elipse en 2-D, etc.) con una confianza adecuadamente alta (> 95%), y cómo ese número varía a medida que El número de dimensiones aumenta.

normal-distribution multivariate-analysis omatai
fuente

Sin una definición suficientemente precisa de 'pin down', no es realmente posible responder a esta pregunta incluso para un gaussiano univariante.

Glen_b -Reinstale a Monica

¿Qué tal: cuántas muestras se necesitan para tener al menos un 95% de confianza de que el 95% de todas las muestras (pero solo el 95% de todas las muestras) se ubicarán dentro de un intervalo definido / elipse / elipsoide / hiperelipsoide?

omatai

Es decir ... el 95% de todas las muestras se ubicarán dentro de una distancia definida de la media. ¿Cuántas muestras son necesarias para definir esa distancia (intervalo / elipse / elipsoide / etc.) con un 95% o más de confianza?

omatai

Tan pronto como tenga un valor de datos independiente más que los parámetros (de donde valores en dimensiones ), puede erigir una región de confianza del 95% a su alrededor. (Uno puede hacerlo aún mejor usando técnicas no tradicionales ). Esa es una respuesta, es definitiva, pero probablemente no sea lo que está buscando. El punto es que necesita estipular una escala absoluta de precisión deseada para obtener una respuesta a esta pregunta.

(\binom{d + 2}{2})

$\binom{d+2}{2}$

d

$d$

whuber

Snedecor y Cochran [ Métodos estadísticos , 8ª edición] son autoridades en materia de muestreo. Describen este proceso en los capítulos 4 y 6: "asumimos al principio que la desviación estándar de la población ... es conocida". Más tarde escriben: "Por lo tanto, el método es más útil en las primeras etapas de una línea de trabajo ... Por ejemplo, pequeños experimentos anteriores han indicado que un nuevo tratamiento da un aumento de alrededor del 20% y es de alrededor del 7% El investigador ... [quiere un] SE de 2% y por lo tanto establece , dando ... Esto ... a menudo es útil en trabajos posteriores.

σ_{D}

$\sigma_D$

σ

$\sigma$

\pm

$\pm$

\sqrt{2} (7) / \sqrt{n} = 2

$\sqrt{2}(7)/\sqrt{n}=2$

n = 25

$n=25$

whuber

Respuestas:

La cantidad de datos necesarios para estimar los parámetros de una distribución Normal multivariada dentro de una precisión especificada a una confianza dada no varía con la dimensión, todas las demás cosas son iguales. Por lo tanto, puede aplicar cualquier regla general para dos dimensiones a problemas de dimensiones superiores sin ningún cambio en absoluto.

¿Por qué debería hacerlo? Solo hay tres tipos de parámetros: medias, variaciones y covarianzas. El error de estimación en una media depende solo de la varianza y la cantidad de datos, . Por lo tanto, cuando tiene una distribución Normal multivariada y tiene varianzas , entonces las estimaciones de dependen solo de y . Por lo tanto, para lograr una precisión adecuada en la estimación de todos los , solo necesitamos considerar la cantidad de datos necesarios para que tenga el mayor de $n$ $(X_1, X_2, \ldots, X_d)$ $X_i$ $\sigma_i^2$ $\mathbb{E[X_i]}$ $\sigma_i$ $n$ $\mathbb{E}[X_i]$ $X_i$ $\sigma_i$ . Por lo tanto, cuando contemplamos una sucesión de problemas de estimación para aumentar las dimensiones , todo lo que tenemos que considerar es cuánto aumentará la más grande . Cuando estos parámetros están limitados anteriormente, concluimos que la cantidad de datos necesarios no depende de la dimensión. $d$ $\sigma_i$

Consideraciones similares se aplican a la estimación de las varianzas y covarianzas : si una cierta cantidad de suficientes datos para estimar uno de covarianza (o coeficiente de correlación) a una precisión deseada, a continuación, - proporciona la distribución normal subyacente tiene similares valores de parámetros: la misma cantidad de datos será suficiente para estimar cualquier covarianza o coeficiente de correlación. $\sigma_i^2$ $\sigma_{ij}$

Para ilustrar y proporcionar soporte empírico para este argumento, estudiemos algunas simulaciones. Lo siguiente crea parámetros para una distribución multinormal de dimensiones especificadas, extrae muchos conjuntos independientes de vectores idénticamente distribuidos de esa distribución, estima los parámetros de cada muestra y resume los resultados de esas estimaciones de parámetros en términos de (1) sus promedios. -para demostrar que son imparciales (y el código funciona correctamente) y (2) sus desviaciones estándar, que cuantifican la precisión de las estimaciones. (No confunda estas desviaciones estándar, que cuantifican la cantidad de variación entre las estimaciones obtenidas en múltiples iteraciones de la simulación, con las desviaciones estándar utilizadas para definir la distribución multinormal subyacente! $d$ cambia, siempre que cambie, no introducimos variaciones mayores en la distribución multinormal subyacente. $d$

Los tamaños de las variaciones de la distribución subyacente se controlan en esta simulación haciendo que el valor propio más grande de la matriz de covarianza sea igual a . Esto mantiene la densidad de probabilidad "nube" dentro de los límites a medida que aumenta la dimensión, sin importar cuál sea la forma de esta nube. Las simulaciones de otros modelos de comportamiento del sistema a medida que aumenta la dimensión se pueden crear simplemente cambiando la forma en que se generan los valores propios; un ejemplo (usando una distribución Gamma) se muestra comentado en el siguiente código. $1$ R

Lo que estamos buscando es verificar que las desviaciones estándar de las estimaciones de los parámetros no cambien apreciablemente cuando se cambia la dimensión . Por lo tanto, muestran los resultados para dos extremos, y , utilizando la misma cantidad de datos ( ) en ambos casos. Es de destacar que el número de parámetros estimados cuando , igual a , supera con creces el número de vectores ( ) y excede incluso los números individuales ( ) en todo el conjunto de datos. $d$ $d=2$ $d=60$ $30$ $d=60$ $1890$ $30$ $30*60=1800$

Comencemos con dos dimensiones, . Hay cinco parámetros: dos variaciones (con desviaciones estándar de y en esta simulación), una covarianza (SD = ) y dos medias (SD = y ). Con diferentes simulaciones (que se pueden obtener cambiando el valor inicial de la semilla aleatoria), éstas variarán un poco, pero serán consistentemente de un tamaño comparable cuando el tamaño de la muestra sea . Por ejemplo, en la siguiente simulación, las SD son , , , y $d=2$ $0.097$ $0.182$ $0.126$ $0.11$ $0.15$ $n=30$ $0.014$ $0.263$ $0.043$ $0.04$ $0.18$ , respectivamente: todos cambiaron pero son de órdenes de magnitud comparables.

(Estas afirmaciones pueden apoyarse teóricamente, pero el punto aquí es proporcionar una demostración puramente empírica).

Ahora nos movemos a , manteniendo el tamaño de la muestra en . Específicamente, esto significa que cada muestra consta de vectores, cada uno con componentes. En lugar de enumerar todas las desviaciones estándar de , solo veamos imágenes de ellas usando histogramas para representar sus rangos. $d=60$ $n=30$ $30$ $60$ $1890$

Figura

Los diagramas de dispersión en la fila superior comparan los parámetros reales sigma( ) y ( ) con las estimaciones promedio realizadas durante las iteraciones en esta simulación. Las líneas de referencia grises marcan el lugar de la igualdad perfecta: claramente las estimaciones funcionan según lo previsto y son imparciales. $\sigma$ mu $\mu$ $10^4$

Los histogramas aparecen en la fila inferior, por separado para todas las entradas en la matriz de covarianza (izquierda) y para las medias (derecha). Las SD de las variaciones individuales tienden a estar entre y mientras que las SD de las covarianzas entre componentes separados tienden a estar entre y : exactamente en el rango alcanzado cuando . De manera similar, las DE de las estimaciones medias tienden a estar entre y , lo cual es comparable a lo que se vio cuando . Ciertamente, no hay indicios de que las SD hayan aumentado a medida que $0.08$ $0.12$ $0.04$ $0.08$ $d=2$ $0.08$ $0.13$ $d=2$ $d$ subió de a . $2$ $60$

El código sigue.

#
# Create iid multivariate data and do it `n.iter` times.
#
sim <- function(n.data, mu, sigma, n.iter=1) {
  #
  # Returns arrays of parmeter estimates (distinguished by the last index).
  #
  library(MASS) #mvrnorm()
  x <- mvrnorm(n.iter * n.data, mu, sigma)
  s <- array(sapply(1:n.iter, function(i) cov(x[(n.data*(i-1)+1):(n.data*i),])), 
        dim=c(n.dim, n.dim, n.iter))
  m <-array(sapply(1:n.iter, function(i) colMeans(x[(n.data*(i-1)+1):(n.data*i),])), 
            dim=c(n.dim, n.iter))
  return(list(m=m, s=s))
}
#
# Control the study.
#
set.seed(17)
n.dim <- 60
n.data <- 30    # Amount of data per iteration
n.iter <- 10^4  # Number of iterations
#n.parms <- choose(n.dim+2, 2) - 1
#
# Create a random mean vector.
#
mu <- rnorm(n.dim)
#
# Create a random covariance matrix.
#
#eigenvalues <- rgamma(n.dim, 1)
eigenvalues <- exp(-seq(from=0, to=3, length.out=n.dim)) # For comparability
u <- svd(matrix(rnorm(n.dim^2), n.dim))$u
sigma <- u %*% diag(eigenvalues) %*% t(u)
#
# Perform the simulation.
# (Timing is about 5 seconds for n.dim=60, n.data=30, and n.iter=10000.)
#
system.time(sim.data <- sim(n.data, mu, sigma, n.iter))
#
# Optional: plot the simulation results.
#
if (n.dim <= 6) {
  par(mfcol=c(n.dim, n.dim+1))
  tmp <- apply(sim.data$s, 1:2, hist)
  tmp <- apply(sim.data$m, 1, hist)
}
#
# Compare the mean simulation results to the parameters.
#
par(mfrow=c(2,2))
plot(sigma, apply(sim.data$s, 1:2, mean), main="Average covariances")
abline(c(0,1), col="Gray")
plot(mu, apply(sim.data$m, 1, mean), main="Average means")
abline(c(0,1), col="Gray")
#
# Quantify the variability.
#
i <- lower.tri(matrix(1, n.dim, n.dim), diag=TRUE)
hist(sd.cov <- apply(sim.data$s, 1:2, sd)[i], main="SD covariances")
hist(sd.mean <- apply(sim.data$m, 1, sd), main="SD means")
#
# Display the simulation standard deviations for inspection.
#
sd.cov
sd.mean

whuber
fuente

Algunos números breves proporcionan las siguientes distribuciones de error para el ajuste de 30 muestras creadas a partir de una distribución normal estándar y luego se ajustan a un Gaussiano univariado.

ingrese la descripción de la imagen aquí

Los cuartiles están indicados. Se supone que este nivel de variación se desea en el caso multidimensional.

No tengo tiempo para golpear a MatLab para obtener el resultado total, así que compartiré mi "regla de oro". El 30 se proporciona como regla general o heurística, por lo que se supone que las heurísticas no son inaceptables.

Mi heurística es usar el triángulo de Pascal multiplicado por el caso univariante. ingrese la descripción de la imagen aquí

Si estoy usando datos 2D, entonces voy a la segunda fila y lo sumo para obtener el doble de muestras, o 60 muestras. Para los datos en 3D, voy a la tercera fila y lo sumo para obtener 4 veces el número de muestras o 120 muestras. Para los datos 5d, voy a la quinta fila y lo sumo para obtener 16 veces el número de muestras, o 480 muestras.

La mejor de las suertes.

EDITAR:

Era intuitivo, pero todo tiene que ser defendido en matemáticas. No puedo simplemente dar saltos de la formulación de formas polinómicas de elementos finitos con experiencia para obtener un estadio.

La ecuación para la suma de la fila del triángulo de Pascal es . $k^{th}$ $2^k$

Mi idea para el enfoque aquí es equiparar el AIC de una distribución de dimensiones superiores con más muestras a una distribución dimensional reducida con menos muestras.

El Criterio de información de Akaike (AIC) se define como donde es la suma residual de cuadrados, es el recuento de muestras y es el recuento de parámetros para el modelo . $AIC = n \log( \frac {RSS}{n}) + 2*k$ $RSS$ $n$ $k$

$AIC_1 = AIC_2$

$n_1 \log(\frac {RSS_1}{n_1}) +2k_1 = n_2 \log(\frac {RSS_2}{n_2}) +2k_2$

Para cada dimensión que eliminamos, esto significa que la media pierde una fila y la covarianza pierde tanto una fila como una columna. Podemos decir esto como

$k \left( d\right)= d^2+d$ .

$k \left( d+1 \right) - k \left( d\right) = 2 d + 2$

Suponiendo que el error por punto de muestra es constante, relaciona la suma residual de los cuadrados con el recuento de la muestra, y el término en el logaritmo permanece constante. La diferencia en el recuento de muestras se convierte en una constante de escala.

entonces tenemos:

$n_1 A +2(k_2+2d+2) = n_2 A +2k_2$

Resolver para el aumento de muestras con dimensión da:

$n_2- n_1 = (2(k_2+2d+2) - 2k_2) A^{-1} = (4 d+4 ) \cdot A^{-1}$

Entonces, ¿cuál es la función de escala? Supongamos que para un Gaussiano multivariado bidimensional, el número de muestras requeridas es 15 por parámetro. Hay 2 medias y 4 elementos de la covarianza, por lo tanto, 6 parámetros o 90 muestras. La diferencia es de 60 muestras, el valor de . $A^{-1} = 5$

ingrese la descripción de la imagen aquí

En este punto, diría que la heurística comienza un poco baja pero termina siendo aproximadamente el doble de la cantidad de muestras requeridas. Su rango de mejor utilidad, en mi opinión personal, es de alrededor de 4 dimensiones más o menos.

EDITAR:

Así que he leído la respuesta de @whuber y me gusta. Es empírico, y en este caso es autoritario. Yo voté por su respuesta.

A continuación, intento discutir y espero poder utilizar más de ~ 300 caracteres, y espero poder incrustar imágenes. Por lo tanto, estoy discutiendo dentro de los límites de la respuesta. Espero que esté bien.

En este momento no estoy convencido de que el uso de AIC para esto, o cómo se usaron el tamaño de la muestra y los tamaños de los parámetros, fuera incorrecto.

Próximos pasos:

replicar los resultados de @ whuber, confirmarlos empíricamente
Pruebe el AIC, al menos en algún sentido de conjunto, para confirmar si es apropiado
Si AIC es apropiado, intente utilizar métodos empíricos para perseguir defectos en el razonamiento.

Comentarios y sugerencias bienvenidos.

EngrStudent - Restablece a Monica
fuente

¿Podría proporcionar alguna justificación para su heurística?

whuber

¿Y podría confirmar que la suma de la quinta fila es de hecho 16?

omatai

1 + 4 + 6 + 4 + 1 = 1 + 10 + 5 = 16. Lo siento por eso. 16 22. Debo haber estado medio dormido cuando agregué.

\neq

$\ne$

EngrStudent - Restablece a Monica el

¿Cómo se te ocurre para el número de parámetros? Eso es demasiado. Por ejemplo, con componentes solo se necesitan parámetros (para medias, covarianzas y correlaciones). ¡Esto podría explicar por qué su recomendación requiere un tamaño de muestra tan extraordinariamente alto!

2^{d + 1} - 2

$2^{d+1}-2$

d = 9

$d=9$

54

$54$

9

$9$

9

$9$

36

$36$

whuber

@whuber, encuentro que aprendo más por mis errores (después de enterarme de ellos) que por estar en lo correcto. Sorprendentemente, estar equivocado se siente exactamente como estar en lo correcto hasta que sé que estoy equivocado. Gracias. ted.com/talks/kathryn_schulz_on_being_wrong.html

EngrStudent - Restablece a Monica el