Algunas preguntas sobre aleatoriedad estadística

15

De la randona estadística de Wikipedia :

La aleatoriedad global y la aleatoriedad local son diferentes. La mayoría de las concepciones filosóficas de la aleatoriedad son globales, porque se basan en la idea de que "a la larga" una secuencia se ve realmente aleatoria, incluso si ciertas subsecuencias no se verían al azar. En una secuencia "verdaderamente" aleatoria de números de longitud suficiente, por ejemplo, es probable que haya secuencias largas de nada más que ceros, aunque en general la secuencia podría ser aleatoria. La aleatoriedad local se refiere a la idea de que puede haber longitudes de secuencia mínimas en las que las distribuciones aleatorias se aproximan.Largos tramos de los mismos dígitos, incluso aquellos generados por procesos "verdaderamente" aleatorios, disminuirían la "aleatoriedad local" de una muestra (podría ser solo localmente aleatorio para secuencias de 10,000 dígitos; tomar secuencias de menos de 1,000 podría no parecer aleatorio en absoluto, por ejemplo).

Una secuencia que muestra un patrón no se demuestra estadísticamente al azar. Según los principios de la teoría de Ramsey, los objetos suficientemente grandes deben contener necesariamente una subestructura dada ("el desorden completo es imposible").

No entiendo bien el significado de las dos oraciones en negrita.

  1. ¿La primera oración significa que algo hace que una secuencia local sea aleatoria en una longitud más larga y no local aleatoria en una longitud más corta?

    ¿Cómo funciona el ejemplo dentro del paréntesis?

  2. ¿La segunda oración significa que una secuencia que exhibe un patrón no puede probarse que no sea estadísticamente aleatoria? ¿Por qué?

Gracias

StackExchange para todos
fuente
1
buena pregunta. Este texto me parece un poco desconcertante. Pensé que si una secuencia es aleatoria o no tiene que ver con cómo se genera; no cuál es el resultado. Sospecho que hay un problema lingüístico aquí: para mí, aleatorio significa cómo se genera; para el sentido común (y posiblemente para los filósofos menos claros) ¿se trata de algo que parece desordenado?
Peter Ellis
33
@Peter, podría tener dificultades para definir la aleatoriedad si solo pudiera referirse al mecanismo de generación. En última instancia, debido a que toda la utilidad de las secuencias aleatorias radica en los números que contienen, y no en cómo se produjeron esos números, debe haber una forma de definir y probar la aleatoriedad únicamente en términos de las secuencias, ¿no crees?
whuber
1
Ciertamente, estoy de acuerdo en que puede probar la aleatoriedad a partir de sus resultados, para determinar la posibilidad de aleatoriedad, sin aspirar a probarlo. Probablemente necesito leer un poco más y pensar sobre los desafíos filosóficos de una definición basada en la generación.
Peter Ellis
Creo que la aleatoriedad es simplemente un sinónimo de desconocido. Yo también encuentro esta frase rocambolesca
probabilityislogic
2
Dilbert
Henry

Respuestas:

15

El concepto puede ilustrarse perfectamente mediante algún código ejecutable. Comenzamos (en R) usando un buen generador de números pseudoaleatorios para crear una secuencia de 10,000 ceros y unos:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Esto pasa algunas pruebas básicas de números aleatorios. Por ejemplo, una prueba t para comparar la media de tiene un valor de p de 40,09 %, lo que nos permite aceptar la hipótesis de que los ceros y unos son igualmente probables.1/240.09

De estos números procedemos a extraer una subsecuencia de valores sucesivos comenzando en el valor 5081:1000

x0 <- x[1:1000 + 5080]

Si estos deben parecer aleatorios, también deben pasar las mismas pruebas de números aleatorios. Por ejemplo, probemos si su media es 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

El valor p bajo (menos de 1%) sugiere fuertemente la media es significativamente mayor que . De hecho, la suma acumulativa de esta subsecuencia tiene una fuerte tendencia al alza:1/2

> plot(cumsum(x0-1/2))

¿Caminata aleatoria?

¡Ese no es un comportamiento al azar!

La comparación de la secuencia original (trazada como una suma acumulativa) con esta subsecuencia revela lo que está sucediendo:

Caminata aleatoria

De hecho, la secuencia larga se comporta como una caminata aleatoria, como debería, pero la subsecuencia particular que extraje contiene el aumento ascendente más largo entre todas las subsecuencias de la misma longitud. ¡Parece que también podría haber extraído algunas subsecuencias que exhiben un comportamiento "no aleatorio", como el centrado alrededor de donde aparecen aproximadamente 20 unidades seguidas!9000


Como han demostrado estos análisis simples, ninguna prueba puede "probar" que una secuencia parece aleatoria. Todo lo que podemos hacer es probar si las secuencias se desvían bastante de los comportamientos esperados de secuencias aleatorias a ofrecer pruebas de que son no al azar. Así es como funcionan las baterías de las pruebas de números aleatorios : buscan patrones altamente improbables en secuencias de números aleatorios. De vez en cuando, nos harán concluir que una secuencia de números verdaderamente aleatoria no parece aleatoria: la rechazaremos e intentaremos otra cosa.

Sin embargo, a la larga, al igual que todos estamos muertos, cualquier generador de números verdaderamente aleatorio generará cada secuencia posible de 1000 dígitos, y lo hará infinitamente muchas veces. Lo que nos rescata de un dilema lógico es que tendríamos que esperar mucho tiempo para que ocurra una aberración tan aparente.

whuber
fuente
¡Gracias! Una pregunta relacionada: cuando se prueba la aleatoriedad de los números pseudoaleatorios generados por algunos métodos, ¿la aleatoriedad significa distribución uniforme? En otras palabras, ¿las pruebas de aleatoriedad solo prueban distribuciones uniformes? Pregunté esto porque esas distribuciones más sesgadas me parecen menos aleatorias intuitivamente.
StackExchange for All
@Tim: no, hay muchas pruebas comunes para la aleatoriedad gaussiana, y debería ser posible construir pruebas para cualquier distribución.
naught101
1
[0,1)
2
Casi puedo "mirar" en la parte superior de la respuesta y decir "Whuber" :) ¡Muy bien!
PhD
2

Este extracto utiliza los términos "aleatoriedad local" y "aleatoriedad global" para distinguir entre lo que puede ocurrir con un número finito de muestras de una variable aleatoria y la distribución de probabilidad o expectativa de una variable aleatoria.

xi{0,1}θθlimn1ni=1nxi=θ

Sin embargo, al evaluar la media muestral para muestras finitas obtendremos todo tipo de valores en [0,1][a,b]0a<b1θ

Nada nuevo aquí.

n

Por lo tanto, no quemaría demasiadas células cerebrales pensando en este extracto. No es matemáticamente tan preciso y en realidad es engañoso sobre la naturaleza de la aleatoriedad.

Edición basada en el comentario: @kjetilbhalvorsen +1 a su comentario para el conocimiento histórico. Sin embargo, sigo pensando que el valor de estos términos es limitado y engañoso. Las tablas que está describiendo parecen tener la implicación engañosa de que las muestras pequeñas que tienen, por ejemplo, una muestra significan lejos del valor real esperado o tal vez una secuencia larga improbable pero ciertamente posible de 0 repetidos (en mi ejemplo de Bernoulli), de alguna manera exhiben menos aleatoriedad (al decir que no exhiben esta falsa "aleatoriedad local"). ¡No puedo pensar en nada más engañoso para el incipiente estadístico!

Chris A.
fuente
Aunque la "aleatoriedad global" parece idiosincrásica, la "aleatoriedad local" tiene al menos 20 años de historia. Ver isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf , por ejemplo.
whuber
nortenorte
2
Recuerdo que a veces leí esto: en el momento en que la gente publicaba libros con tablas de "números aleatorios" para usar en simulación, experimentación, etc., parte de esto había marcado partes de las tablas como adecuadas para su uso en pequeñas simulaciones (exhibiendo "local" aleatoriedad ") y otras partes que solo deberían usarse para simulaciones más grandes (exhibiendo" aleatoriedad global ") ¡Así que los conceptos parecen apuntar a algo valioso!
kjetil b halvorsen
1
Lo siento, no recuerdo dónde leí esto. Pero es casi obvio: aparte de los problemas filosóficos para definir la aleatoriedad, si tiene simulaciones muy pequeñas en las que necesita 1000 números aleatorios y su generador aleatorio de alta calidad le da 1000 ceros, ¿qué hace? ¡A pesar del hecho de que tales ocurrencias son posibles y de hecho necesarias en una secuencia "verdaderamente aleatoria", su simulación se arruina!
kjetil b halvorsen
1
Gracias chicos, tal vez fui demasiado duro en mi condena. Cambiaré un poco el idioma de esto.
Chris A.
-1

Creo que los autores de la publicación de Wikipedia están malinterpretando la aleatoriedad. Sí, puede haber tramos que parecen no ser aleatorios, pero si el proceso que creó la secuencia es verdaderamente aleatorio, también debe ser la salida. Si ciertas secuencias parecen no ser aleatorias, esa es una percepción errónea del lector (es decir, los humanos están diseñados para encontrar patrones). Nuestra capacidad de ver el Big Dipper, y Orion, etc. en el cielo nocturno no es evidencia de que los patrones de las estrellas no sean aleatorios. Estoy de acuerdo en que la aleatoriedad a menudo parece no aleatoria. Si un proceso genera patrones verdaderamente no aleatorios para secuencias cortas, no es un proceso aleatorio.

No creo que el proceso cambie a diferentes tamaños de muestra. Aumenta el tamaño de la muestra, aumenta la probabilidad de que veamos una secuencia aleatoria que nos parece no aleatoria. Si hay un 10% de posibilidades de que veamos un patrón en 20 observaciones aleatorias, aumentar el número total de observaciones a 10000 aumentaría la probabilidad de que veamos no aleatoriedad, en algún lugar.

P auritus
fuente
2
"Si un proceso genera patrones verdaderamente no aleatorios para secuencias cortas, no es un proceso aleatorio" es, me temo, completamente incorrecto. Por ejemplo, en cualquier 100 lanzamientos de una moneda justa, esperaríamos observar seis caras o seis colas seguidas, y ese es un "patrón verdaderamente no aleatorio para [una] secuencia corta" por el significado de casi cualquiera de "aleatorio". " Sospecho que querías escribir algo que necesita ser calificado con más cuidado, como aplicar "todos" antes de "secuencias cortas".
whuber
De Verdad? Pensé que, dado que uno espera ver cadenas de cabezas de cola de un generador de números aleatorios, que cuando lo veamos, no debería sorprendernos. ¿Por qué considerar que no es aleatorio? Si uno tuviera un generador de números que hiciera 100 vueltas y evitara deliberadamente 4 o más caras o colas seguidas, se vería más aleatorio que un proceso verdaderamente aleatorio, pero en realidad sería no aleatorio. Una visión ingenua de la aleatoriedad es la falta de todos los patrones, pero eso sería no aleatorio.
P auritus
Su comentario es correcto, pero la exposición en su respuesta no es clara e incluso contradictoria en este punto. Considere explicar con mayor precisión lo que quiere decir al generar "patrones verdaderamente no aleatorios para secuencias cortas", por ejemplo, o lo que significa "ver la no aleatoriedad".
whuber
No veo contradicción. Parece pensar que los generadores aleatorios crean patrones no aleatorios. Esa es la contradicción. Usted argumenta que los procesos verdaderamente aleatorios generarán observaciones no aleatorias. Lo que está describiendo es algo llamado "ilusión de agrupamiento", que es la tendencia a percibir incorrectamente los grupos de distribuciones aleatorias. Todo lo que digo es que si un proceso crea observaciones no aleatorias, entonces no es aleatorio. Argumenta que espera que un proceso aleatorio cree cadenas de observaciones no aleatorias, pero lo llama no aleatorio. Ejemplo clásico de apofenia.
P auritus
1
Es difícil mantener una conversación con un interlocutor que expresa incorrectamente su posición, por lo que me retiraré de esta. Lo siento.
whuber