A continuación se muestra un histograma de algunos datos, los contenedores son enteros y los otros parámetros son irrelevantes.
Como puede ver, parece haber dos distribuciones normales separadas pero superpuestas para números pares e impares.
La probabilidad de ser un número par es 1/3, del mismo modo 2/3 para un número impar.
No tengo idea de la significación estadística real de esto para ser honesto, así que estoy tratando de averiguar qué es aprender más, pero no puedo encontrar nada, he intentado tantos términos de búsqueda para encontrar esto e incluso búsquedas de imágenes inversas, pero todo lo que obtengo es información sobre distribuciones multimodales, etc. y no puedo encontrar nada sobre cuándo las distribuciones multimodales se superponen de esta manera
¿Hay un nombre para esto?
Para aquellos interesados, los datos provienen de 1,000,000 juegos aleatorios de goofspiel (N = 13) usando el script matlab
N = 1000000;
random = zeros(1,N);
for i = 1 : N
pc = randperm(13);
p1 = randperm(13);
p2 = randperm(13);
random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')
Un ejemplo más general (aunque artificial) sería el siguiente
a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
if(d(i))
c(i) = b(i);
end
end
bar(c)
Al igual que el primer ejemplo, hay dos distribuciones superpuestas (triangular y normal), pero en este caso en lugar de alternar en cada punto, es aleatorio.
Sé que este es un ejemplo exagerado (y ni siquiera un histograma) pero tiene que haber ejemplos de este tipo de cosas que realmente suceden con los datos estadísticos, ¿verdad? Por otra parte, tal vez no, ¿o es completamente irrelevante?
La pregunta real es doble:
la pregunta general: ¿cómo se llama este tipo de "cosa", si acaso? - para que yo (o cualquier otra persona que pueda encontrarlo) pueda obtener más información al respecto y si es necesario realizar algún ajuste.
La pregunta, ya que se relaciona específicamente con mi primer conjunto de datos, ¿ debería separar los valores pares e impares o ajustar una distribución normal a todo el conjunto?
fuente
Respuestas:
Esta respuesta no es una respuesta directa a su pregunta, porque se relaciona con una causa diferente del patrón.
Pero se relaciona con la misma apariencia gráfica y, por lo tanto, lo publico como una respuesta en lugar de un comentario (antes de leer su script de Matlab, en realidad pensé que el patrón en su histograma se debía a esta causa diferente).
Su pregunta me hizo volver a visitar un histograma que tracé en una respuesta a una pregunta reciente.
Usé binsize 1, mientras que la distancia entre los resultados (discretos) fue de 0.538. Hacer que las barras del histograma se tracen ocasionalmente con los recuentos de un solo valor en lugar de los recuentos de dos valores.
Después de ajustar los tamaños de los contenedores, el histograma parecía más típico.
En este caso, podríamos llamar al patrón un patrón de Moiré , que es la aparición de bandas artificiales claras y oscuras debido a una desalineación de dos escalas discretas.
En su caso, sin embargo, el patrón periódico no es un efecto artificial en el histograma sino un comportamiento verdaderamente periódico en la función de masa de probabilidad. De todos modos, pensé que era útil mencionar este patrón Moiré relacionado.
fuente
Lo siento, no sé un nombre establecido, pero para abordar su segunda pregunta:
Creo que deberías separarlos. Su análisis ha descubierto que el factor / predictor más importante es si la entrada es impar o par, por lo que fusionarlos sería difuminar ambas distribuciones y hacerlas menos útiles (*).
*: Por supuesto, realmente depende de tu definición de útil. Me estoy acercando desde el punto de vista de que tiene algunas entradas y desea hacer un modelo para predecir alguna salida. Una vez que sepamos que es significativo, me gustaría dar al modelo la pista de que la paridad de una / algunas de las entradas es importante.
Por cierto, como en la respuesta de Martijn Weterings, cuando había hecho histogramas irregulares como este antes, se ha relacionado con la elección del tamaño del contenedor. Me hizo darme cuenta de que la experimentación con el tamaño del contenedor es otra herramienta más en la caja de herramientas Lying With Stats :-)
fuente