Tengo más de 3000 vectores en una cuadrícula bidimensional, con una distribución discreta aproximadamente uniforme. Algunos pares de vectores cumplen una cierta condición. Nota: la condición solo es aplicable a pares de vectores, no a vectores individuales. Tengo una lista de aproximadamente 1500 pares de este tipo, llamémosle grupo 1. El grupo 2 contiene todos los demás pares de vectores. Quiero saber si la distancia entre vectores en un par en el grupo 1 es significativamente menor que la distancia promedio entre dos vectores. ¿Cómo puedo hacer eso?
Prueba estadística : ¿es aplicable el teorema del límite central a mi caso? Es decir, ¿puedo tomar medias de muestras de distancias y usar la prueba t de Student para comparar medias de muestras que cumplen la condición con medias de muestras que no cumplen la condición? De lo contrario, ¿qué prueba estadística sería apropiada aquí?
Tamaño de la muestra y número de muestras : entiendo que hay dos variables aquí, para cada uno de los dos grupos necesito tomar n muestras del tamaño my tomar el promedio de cada una de las muestras. ¿Hay alguna forma de principios para elegir n y m ? ¿Deberían ser lo más grandes posible? ¿O deberían ser lo menos posible, siempre que muestren la significación estadística? ¿Deberían ser iguales para cada uno de los dos grupos? ¿O deberían ser más grandes para el grupo 2, que contiene muchos más pares de vectores?
Respuestas:
La cuestión de "significativamente" diferente siempre, siempre presupone un modelo estadístico para los datos. Esta respuesta propone uno de los modelos más generales que es consistente con la mínima información proporcionada en la pregunta. En resumen, funcionará en una amplia gama de casos, pero puede que no siempre sea la forma más poderosa de detectar una diferencia.
Tres aspectos de los datos realmente importan: la forma del espacio ocupado por los puntos; la distribución de los puntos dentro de ese espacio; y el gráfico formado por los pares de puntos que tienen la "condición", que llamaré el grupo "tratamiento". Por "gráfico" me refiero al patrón de puntos e interconexiones implicados por los pares de puntos en el grupo de tratamiento. Por ejemplo, diez pares de puntos ("bordes") de la gráfica podrían involucrar hasta 20 puntos distintos o tan solo cinco puntos. En el primer caso, no hay dos aristas que compartan un punto común, mientras que en el último caso las aristas consisten en todos los pares posibles entre cinco puntos.
Para determinar si la distancia media entre los bordes en el grupo de tratamiento es "significativa", podemos considerar un proceso aleatorio en el que todos los puntos son permutados aleatoriamente por una permutación . Esto también permuta los bordes: el borde se reemplaza por . La hipótesis nula es que el grupo de tratamiento de aristas surge como una de estas permutaciones. Si es así, su distancia media debería ser comparable a las distancias medias que aparecen en esas permutaciones. Podemos estimar con bastante facilidad la distribución de esas distancias medias aleatorias mediante el muestreo de algunos miles de todas esas permutaciones.σ ( v i , v j ) ( v σ ( i ) , v σ ( j ) ) 3000 ! ≈ 10 21,024n = 3000 σ ( vyo, vj) ( vσ( i ), vσ( j )) 3000 ! ≈ 1021024
(Es de destacar que este enfoque funcionará, con solo modificaciones menores, con cualquier distancia o, de hecho, cualquier cantidad asociada con cada par de puntos posible. También funcionará para cualquier resumen de las distancias, no solo la media).
Para ilustrar, aquí hay dos situaciones que involucran puntos y aristas en un grupo de tratamiento. En la fila superior, los primeros puntos en cada borde se eligieron aleatoriamente entre los puntos y luego los segundos puntos de cada borde se eligieron de forma independiente y aleatoria entre los puntos diferentes de su primer punto. En total, puntos están involucrados en estos bordes.28 100 100 - 1 39 28n=100 28 100 100−1 39 28
En la fila inferior, ocho de los puntos fueron elegidos al azar. Los bordes consisten en todos los pares posibles de ellos.28100 28
Los histogramas a la derecha muestran las distribuciones de muestreo para permutaciones aleatorias de las configuraciones. Las distancias medias reales para los datos están marcadas con líneas rojas discontinuas verticales. Ambos medios son consistentes con las distribuciones de muestreo: ninguno se encuentra muy a la derecha o a la izquierda.10000
Las distribuciones de muestreo difieren: aunque en promedio las distancias medias son las mismas, la variación en la distancia media es mayor en el segundo caso debido a las interdependencias gráficas entre los bordes. Esta es una razón por la que no se puede utilizar una versión simple del Teorema del límite central: calcular la desviación estándar de esta distribución es difícil.
Aquí hay resultados comparables a los datos descritos en la pregunta: puntos están distribuidos aproximadamente de manera uniforme dentro de un cuadrado y de sus pares están en el grupo de tratamiento. Los cálculos tomaron solo unos segundos, lo que demuestra su viabilidad.1500n=3000 1500
Los pares en la fila superior nuevamente fueron elegidos al azar. En la fila inferior, todos los bordes en el grupo de tratamiento usan solo los puntos más cercanos a la esquina inferior izquierda. Su distancia media es mucho menor que la distribución de muestreo que se puede considerar estadísticamente significativa.56
En general, la proporción de distancias medias tanto de la simulación como del grupo de tratamiento que son iguales o mayores que la distancia media en el grupo de tratamiento puede tomarse como el valor p de esta prueba de permutación no paramétrica.
Este es el
R
código utilizado para crear las ilustraciones.fuente
mean(c(sim, stat) <= stat)
omean(c(sim, stat) >= stat)
según corresponda.stat
desde el centro de la distribución, en cualquier dirección? Algo así comop.value <- mean(abs(c(sim, stat)-mean(sim)) >= abs(stat-mean(sim)))
.