Pruebe si 2 conjuntos de datos distribuidos exponencialmente son diferentes

8

Tengo 2 conjuntos de datos distribuidos exponencialmente y quiero estar seguro de que son de diferentes distribuciones. Lamentablemente, un error necesario en la detección de los datos me obliga a descartar todos los datos por debajo de un cierto umbral. En cada conjunto tengo alrededor de 3000 puntos de datos y trazar los datos me hace pensar que el valor lambda es diferente. El ajuste también produce diferentes valores para lambda.

¿Cómo puedo estar seguro de que ambos conjuntos de datos se originan en una distribución diferente?

Aquí una gráfica de cómo se ven los conjuntos (tenga en cuenta que todos los valores bajo duración = 3 segundos deben descartarse):

ACTUALIZACIÓN: Las distribuciones anteriores se normalizan en ambos casos sobre N solo por compararlas mejor en un gráfico porque el número total de puntos de datos N es diferente.

ACTUALIZACIÓN2: Después del truncamiento, tengo alrededor de 150 valores de por vida para el conjunto de datos rojo y 350 para el conjunto de datos azul. Resulta que 3000 fue exagerado (lo siento).

ACTUALIZACIÓN3: Gracias por soportarme. Aquí están los datos en bruto:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

Hasta ahora ajusté una función exponencial a ambos conjuntos de datos y comparé las pendientes. Dado que cualquier normalización no debería cambiar la pendiente de los datos, diferentes pendientes deberían implicar diferentes distribuciones exponenciales subyacentes (Mi experiencia con el análisis estadístico es muy limitada).

Los valores por debajo del umbral se descartan porque la medición detecta muchos eventos con demasiada frecuencia en ese régimen.

ACTUALIZACIÓN4: Me acabo de dar cuenta de que mi problema es mucho más complicado de lo que pensaba. De hecho, he dejado los datos censurados (no sé el comienzo de algunos eventos) y los datos censurados a la derecha (no sé el final de algunos eventos) Y tengo que descartar todas las vidas de menos de 3s (truncamiento). ¿Hay alguna manera de incorporar todo eso en un análisis? Hasta ahora encontré ayuda sobre cómo trabajar con datos censurados (análisis de supervivencia), pero ¿qué debo hacer con el truncamiento?

MaxJ
fuente
Dado que la trama parece mostrar densidades, ¿cómo se estiman?
Yves
Estos suenan como datos censurados. Pierde información y potencialmente sesga los resultados al descartar los que están por debajo del umbral. En cambio, debe informar cuál es ese umbral (3 segundos, ya veo) y proporcionar los recuentos de valores descartados dentro de cada grupo. También debe explicar los datos cuantificados que se muestran debajo del umbral (como el punto marrón en la parte inferior izquierda). Etiquetar el eje vertical como "densidad" es misterioso: ¿seguramente sus datos originales son solo vidas y esta gráfica ofrece recuentos dentro de clases de vida limitadas?
whuber
Si desea comparar las dos distribuciones condicionales (por encima del umbral), puede usar una prueba F para comparar los medios según lo descrito por @Glen_b en stats.stackexchange.com/a/76695/10479
Yves
Por favor: elimine la normalización para que podamos ver los datos reales (la normalización destruye la información esencial) y díganos cuántos valores suele arrojar en los datos.
whuber
Agregué los datos en bruto a la pregunta. En el primer conjunto de datos, tengo que descartar el 50% en el segundo, aproximadamente el 30%.
MaxJ

Respuestas:

5

Las vidas distribuidas exponencialmente son un caso especialmente simple para el análisis de supervivencia . A menudo, analizarlos es el primer ejemplo que se trabajó para que los estudiantes comiencen antes de pasar a situaciones más complicadas. Además, el análisis de supervivencia se adapta naturalmente a los datos censurados. En resumen, le sugiero que utilice el análisis de supervivencia con un indicador de agrupación para las dos distribuciones como efecto del tratamiento. Puede usar un modelo paramétrico (por ejemplo, el modelo de Weibull, ya que el exponencial es un caso especial del Weibull ), o puede usar métodos no paramétricos, como la prueba de rango de registro , si lo prefiere.

gung - Restablece a Monica
fuente
¿Esto también se aplica a los datos truncados? Creo que mi problema es un poco diferente de censurar o?
MaxJ
@ user3683367, el truncamiento es diferente de la censura. Estos probarían las diferencias en las distribuciones por encima del límite de detección.
gung - Restablece a Monica
Me deshice del truncamiento (nueva configuración de exp.) Y solo usé datos censurados a izquierda y derecha en la caja de herramientas estadísticas de MATLABS. Utilicé la función Weibull con datos censurados izquierdo y derecho. Los medios ajustados son diferentes y sus límites de error no se superponen. ¿Cómo puedo calcular una probabilidad de que mis distribuciones sean realmente las mismas?
MaxJ
@ user3683367, no puede calcular la probabilidad de que las distribuciones sean las mismas. Esa probabilidad es o , y no sabes cuál. En cambio, puede calcular la probabilidad de obtener 2 grupos tan divergentes si provenían de la misma distribución; Ese es el valor p. En cuanto a cómo hacer que MATLAB te lo dé, no lo sé: no he usado MATLAB en mucho tiempo, pero un valor p en el contraste del tratamiento debería venir con el resultado del modelo estándar. 10
gung - Restablece a Monica
2

Está interesado en la siguiente prueba: donde es el único parámetro que identifica de forma exclusiva la distribución exponencial con la que está tratando. Como también corresponde a la media de esta distribución, usted está esencialmente interesado en probar la diferencia de medias en estas dos distribuciones.H0:λ1=λ2λiλ

Dado que tiene un tamaño de muestra grande, para probar esto podemos recurrir al teorema del límite central que nos dice lo siguiente:

Teorema del límite central: suponga que es una secuencia de variables aleatorias iid con . Luego, cuando acerca al infinito, la variable aleatoria converge en distribución a una distribución normal .X1,X2,...XnE[Xi]=μ and Var[Xi]=σ2<nn(X¯μ)N(0,σ2)

En otras palabras, sus medias muestrales para cada uno de los dos grupos están aproximadamente distribuidas normalmente. Como no conoce el verdadero valor de , puede realizar una prueba t para una diferencia de medias.σ2

TrynnaDoStat
fuente
1
Debido a que la distribución exponencial es tan sesgada, se necesita un pequeño análisis para justificar la aplicación de la CLT. Si de hecho estos datos no fueron censurados, resulta que sería más que suficiente para hacer que la aproximación normal sea buena. (Prueba: el cgf de la media de exponenciales iid es , lo que implica que la asimetría es , que es pequeño para ) Pero esto podría ser un error grave si se hubiera descartado una proporción sustancial de cualquiera de los conjuntos de datos. n=3000nψ(t)=t2/(2n)+it3/(3n2)+O(t4)2nn=3000
whuber
Edité mi pregunta. ¿Puedo realmente aplicar el CLT para datos censurados a la izquierda con N = 100-300?
MaxJ
Corrígeme si me equivoco, pero creo que el punto de Whuber es que si la distribución exponencial se trunca, ya no es una distribución exponencial pura. Un punto crucial de mi argumento es que la media de la distribución exponencial la identifica de manera única. Si esta nueva distribución truncada ya no se identifica de manera única por su significado, entonces mi argumento puede fallar. Independientemente de si los datos están truncados o no, aún puede hacer una prueba de diferencia de medias t. Si las medias son diferentes, entonces las distribuciones son diferentes.
TrynnaDoStat
Si el punto de Whuber es que el CLT no se aplica, tendré que estar en desacuerdo con él. Ya sea que sus datos provengan o no de una distribución exponencial pura o truncada, todavía tiene una muestra iid de la misma distribución con alguna media y alguna varianza finita . μσ2
TrynnaDoStat
2
Mi punto no es que el CLT no sea aplicable: es que, para aplicarlo, debe verificar que la aproximación asintótica sea buena. El CLT no dice absolutamente nada acerca de la distribución de la media de un número finito particular de iid, variables de varianza finita. Y no confunda el truncamiento con la censura: el problema creado por la censura es que algunos de los datos no son incluso números (son intervalos), por lo que, a fortiori, el CLT no puede aplicarse (directamente) en esa situación.
whuber