Independencia de la media y varianza de las distribuciones uniformes discretas

En los comentarios debajo de una publicación mía , Glen_b y yo estábamos discutiendo cómo las distribuciones discretas necesariamente tienen una media y una varianza dependientes.

Para una distribución normal tiene sentido. Si te digo , no tienes ni idea de qué , y si te digo , no tienes ni idea de qué es . (Editado para abordar las estadísticas de muestra, no los parámetros de población). $\bar{x}$ $s^2$ $s^2$ $\bar{x}$

Pero entonces, para una distribución uniforme discreta, ¿no se aplica la misma lógica? Si calculo el centro de los puntos finales, no conozco la escala, y si calculo la escala, no conozco el centro.

¿Qué está mal con mi pensamiento?

EDITAR

Hice la simulación de jbowman. Luego lo golpeé con la transformación integral de probabilidad (creo) para examinar la relación sin ninguna influencia de las distribuciones marginales (aislamiento de la cópula).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

En la pequeña imagen que aparece en RStudio, el segundo diagrama parece tener una cobertura uniforme sobre el cuadrado de la unidad, por lo que es independiente. Al acercarse, hay distintas bandas verticales. Creo que esto tiene que ver con la discreción y que no debería leerlo. Luego lo probé para una distribución uniforme continua en . $(0,10)$

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

Este realmente parece que tiene puntos distribuidos uniformemente a través del cuadrado de la unidad, por lo que sigo escéptico de que y sean independientes. $\bar{x}$ $s^2$

distributions variance mean independence moments Dave
fuente

Ese es un enfoque interesante que has tomado allí, tendré que pensarlo.

jbowman

La dependencia (necesariamente) se debilita en muestras de mayor tamaño, por lo que es difícil de ver. Pruebe tamaños de muestra más pequeños, como n = 5,6,7 y lo verá más fácilmente.

Glen_b -Reinstale a Monica el

@Glen_b Tienes razón. Hay una relación más obvia cuando reduzco el tamaño de la muestra. Incluso en la imagen que publiqué, parece haber algún agrupamiento en las esquinas inferiores derecha e izquierda, que está presente en el gráfico para el tamaño de muestra más pequeño. Dos seguimientos. 1) ¿La dependencia se está debilitando necesariamente porque los parámetros de la población pueden variar independientemente uno del otro? 2) Parece incorrecto que las estadísticas tengan algún tipo de dependencia, pero claramente lo hacen. ¿Qué causa esto?

Dave

Una forma de obtener una idea es examinar las características especiales de las muestras que se encuentran en esos "cuernos" en la parte superior de las parcelas de Bruce. En particular, tenga en cuenta que con n = 5, obtiene la mayor variación posible por todos los puntos que están cerca a 0 o 1, pero debido a que hay 5 observaciones, necesita 3 en un extremo y 2 en el otro, por lo que la media debe estar cerca de 0.4 o 0.6 pero no cerca de 0.5 (ya que al colocar un punto en el medio se reducirá la varianza a bit). Si tuviera una distribución de cola pesada, tanto la media como la varianza se verían más afectadas por la observación más extrema ...

ctd

ctd ... y en esa situación obtienes una fuerte correlación entrey (dando dos grandes "cuernos" a cada lado del centro de la población en una parcela de sd vs media) - con el uniforme esta correlación es algo negativo. ... Con muestras grandes, se dirigirá hacia el comportamiento asintótico de que termina siendo conjuntamente normal.

| \bar{x} - μ |

$|\bar{x}-\mu|$

s

$s$

(\bar{X}, s_{X}^{2})

$(\bar{X},s^2_X)$

Glen_b -Reinstale a Monica el

Respuestas:

La respuesta de jbowman (+1) cuenta gran parte de la historia. Aquí hay un poco más.

(a) Para los datos de una distribución uniforme continua , la media muestral y la DE no están correlacionadas, pero no son independientes. Los "contornos" de la trama enfatizan la dependencia. Entre las distribuciones continuas, la independencia es válida solo para lo normal.

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

(b) Uniforme discreto. La discreción permite encontrar un valor de la media y un valor de la SD de manera que pero $a$ $s$ $P(\bar X = a) > 0,\, P(S = s) > 0,$ $P(\bar X = a, X = s) = 0.$

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(d) Además de (a), utilizando la distribución lugar de enfatiza los límites de los posibles valores de la media muestral y la DE. Estamos 'aplastando' un hipercubo de 5 dimensiones en 2 espacios. Las imágenes de algunos hiperbordes son claras. [Ref: La figura a continuación es similar a la Fig. 4.6 en Suess & Trumbo (2010), Introducción a la simulación de probabilidad y muestreo de Gibbs con R, Springer.] $\mathsf{Beta}(.1,.1),$ $\mathsf{Beta}(1,1) \equiv \mathsf{Unif}(0,1).$

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

Anexo por Comentario.

BruceET
fuente

Use ecdf en su último. ¡El diagrama de dispersión es salvaje! De todos modos, si una variable uniforme tiene una dependencia entre y , ¿cómo es que estamos obteniendo información sobre uno conociendo al otro, dado que podemos estirar el rango o desplazar el centro de todas maneras? no afecta el otro valor? Si obtenemos , no deberíamos saber si o , de manera similar a cómo podemos estirar la distribución normal sin afectar la media.

\bar{x}

$\bar{x}$

s^{2}

$s^2$

\bar{x} = 0

$\bar{x}=0$

s^{2} = 1

$s^2 = 1$

s^{2} = 100

$s^2=100$

Dave

El criterio de independencia es exigente. La falta de independencia entre dos vehículos recreativos no garantiza que sea fácil obtener información sobre uno, conociendo el valor del otro. // En (d), no estoy seguro de qué revelaría el ECDF de A o S. // El diagrama de dispersión en (d) muestra 6 'puntos', imágenes en transformación de 32 vértices de hipercubo 5-d con multiplicidades 1, 5, 10, 10, 5, 1 (de izquierda a derecha). Las multiplicidades explican por qué los "dos primeros puntos" son más distintos.

BruceET

No quiero decir que sea fácil obtener información sobre uno si conoces al otro, pero si tienes independencia, todo lo que puedes seguir es la distribución marginal. Considere dos variables normales estándar e con . Si sabe que , no sabe a qué equivale , pero sabe que un valor alrededor de es más probable que un valor alrededor de . Si , entonces un valor alrededor de es tan probable como un valor alrededor de .

X

$X$

Y

$Y$

ρ = 0.9

$\rho=0.9$

x = 1

$x=1$

y

$y$

1

$1$

- 1

$-1$

ρ = 0

$\rho=0$

1

$1$

- 1

$-1$

Dave

Pero eso es para una relación casi lineal entre dos normales estándar. La media y el DE de las muestras no son tan fáciles.

BruceET

@Dave tienes información sobre uno cuando conoces al otro. Por ejemplo, si la varianza de la muestra es muy grande, se conoce la media de la muestra no es realmente cerca de 0,5 (ver el espacio en la parte superior central de la primera trama, por ejemplo)

Glen_b -Reinstate Mónica

No es que la media y la varianza sean dependientes en el caso de distribuciones discretas, es que la media y la varianza de la muestra son dependientes dados los parámetros de la distribución. La media y la varianza en sí son funciones fijas de los parámetros de la distribución, y conceptos como "independencia" no se aplican a ellas. En consecuencia, te estás haciendo las preguntas hipotéticas equivocadas.

En el caso de la distribución uniforme discreta, trazar los resultados de 20,000 pares calculados a partir de muestras de 100 uniformes resulta en: $(\bar{x}, s^2)$ $(1, 2, \dots, 10)$

lo que muestra claramente que no son independientes; los valores más altos de se encuentran desproporcionadamente hacia el centro del rango de . (Sin embargo, no están correlacionados; un simple argumento de simetría debería convencernos de eso). $s^2$ $\bar{x}$

¡Por supuesto, un ejemplo no puede probar la conjetura de Glen en la publicación a la que ha vinculado que no existe una distribución discreta con medias y variaciones de muestra independientes!

jbowman
fuente

Esa es una buena captura sobre estadística versus parámetro. He hecho una edición bastante extensa.

Dave