Estoy estudiando dos poblaciones geográficamente aisladas de la misma especie. Al inspeccionar las distribuciones, veo que ambas son bimodales (hay cierta estacionalidad en su ocurrencia), pero los picos en una población son mucho más altos y mucho más estrechos (es decir, la variación de los picos locales es menor).
¿Qué tipo de prueba estadística sería apropiada para determinar si estas diferencias son significativas?
Para aclarar, mi eje y es el número de individuos identificados en una trampa en un día en particular, y el eje x es el día juliano.
distributions
statistical-significance
variance
Atticus29
fuente
fuente
Respuestas:
¿Son estas distribuciones de algo a lo largo del tiempo? Cuenta, tal vez? (Si es así, es posible que necesite algo bastante diferente de las discusiones aquí hasta ahora)
Lo que describe no suena como si estuviera muy bien recogido como una diferencia en la variación de las distribuciones.
Parece que está describiendo algo vagamente como esto (ignore los números en los ejes, es solo para dar una idea del tipo general de patrón que parece estar describiendo):
Si eso es correcto, entonces considere:
Si bien el ancho de cada pico alrededor de los centros locales es más estrecho para la curva azul, la variación de las distribuciones roja y azul en general apenas difiere.
Si identifica los modos y antimodos de antemano, podría medir la variabilidad local.
fuente
En primer lugar, creo que debería ver las distribuciones estacionales por separado, ya que es probable que la distribución bimodal sea el resultado de dos procesos bastante separados. Las dos distribuciones pueden controlarse mediante diferentes mecanismos, de modo que, por ejemplo, las distribuciones de invierno pueden ser más sensibles al clima anual. Si desea ver las diferencias de población y las razones de esto, creo que es más útil estudiar las distribuciones estacionales por separado.
En cuanto a una prueba, puede probar la prueba de Levine (básicamente una prueba de homocedasticidad), que se utiliza para comparar las variaciones entre los grupos. La prueba de Bartlett es una alternativa, pero se supone que la prueba de Levene es más robusta a la no normalidad (especialmente cuando se usa la mediana para la prueba). En R se encuentran las pruebas de Levene y Bartlett
library(car)
.fuente
leveneTest(y ~ as.factor(group), data= datafile)
para una prueba de diferencia de varianza entre grupos, y si usa la opción `center =" mediana "es más robusto a la no normalidad. Estrictamente, creo que se llama prueba Brown-Forsythe si se basa en la mediana.Estoy de acuerdo con lo que otros han dicho, a saber, que "varianza" es probablemente la palabra incorrecta para usar (ya que la función que está considerando no es una distribución de probabilidad sino una serie de tiempo).
Creo que es posible que desee abordar este problema desde una perspectiva diferente: simplemente ajuste las dos series de tiempo con curvas BAJAS. Puede calcular intervalos de confianza del 95% y comentar cualitativamente sus formas. No estoy seguro de que necesites hacer algo más elegante que esto.
He escrito un código MATLAB a continuación para ilustrar lo que estoy diciendo. Tengo un poco de prisa pero puedo dar aclaraciones pronto. Gran parte de lo que hice se puede tomar directamente desde aquí: http://blogs.mathworks.com/loren/2011/01/13/data-driven-fitting/
Es posible que desee normalizar las dos series temporales para comparar sus tendencias relativas en lugar de sus niveles absolutos.
Ahora haga ajustes BAJOS ...
Finalmente, puede crear bandas de confianza del 95% de la siguiente manera:
Ahora puede interpretar la cifra final como lo desee, y tiene los ajustes BAJOS para respaldar su hipótesis de que los picos en la curva roja son en realidad más amplios que la curva azul. Si tiene una mejor idea de cuál es la función, podría hacer una regresión no lineal.
Editar: Basado en algunos comentarios útiles a continuación, estoy agregando algunos detalles más sobre la estimación explícita de los anchos de pico. Primero, debe llegar a una definición de lo que está considerando que es un "pico". Quizás cualquier golpe que se eleve por encima de algún umbral (algo así como 0.05 en las parcelas que hice arriba). El principio básico es que debe encontrar una manera de separar los picos "reales" o "notables" del ruido.
Luego, para cada pico, puede medir su ancho de varias maneras. Como mencioné en los comentarios a continuación, creo que es razonable observar el "ancho medio máximo", pero también podría ver el tiempo total en que el pico se encuentra por encima de su umbral. Idealmente, debe usar varias medidas diferentes de ancho de pico e informar qué tan consistentes se les dieron estas opciones a sus resultados.
Cualquiera sea su métrica (s) de elección, puede usar bootstrapping para calcular un intervalo de confianza para cada pico en cada traza.
Este código crea 1000 ajustes de arranque para los trazos azules y rojos en las parcelas anteriores. Un detalle que pasaré por alto es la elección del factor de suavizado 0.15: puede elegir este parámetro para minimizar el error de validación cruzada (consulte el enlace que publiqué). Ahora todo lo que tiene que hacer es escribir una función que aísle los picos y calcule su ancho:
Luego ejecuta este código en las 1000 curvas para cada conjunto de datos y calcula los percentiles 2.5 y 97.5 para el ancho de cada pico. Ilustraré esto en la serie temporal Y1: usted haría lo mismo para la serie temporal Y2 o cualquier otro conjunto de datos de interés.
Si lo desea, puede realizar pruebas de hipótesis en lugar de calcular intervalos de confianza. Tenga en cuenta que el código anterior es simplista: supone que cada curva de lowess bootstrapped tendrá 2 picos. Es posible que esta suposición no siempre sea válida, así que tenga cuidado. Solo estoy tratando de ilustrar el enfoque que adoptaría.
Nota: la función "mylowess" aparece en el enlace que publiqué anteriormente. Esto es lo que parece...
fuente