Tengo 2 conjuntos de datos distribuidos exponencialmente y quiero estar seguro de que son de diferentes distribuciones. Lamentablemente, un error necesario en la detección de los datos me obliga a descartar todos los datos por debajo de un cierto umbral. En cada conjunto tengo alrededor de 3000 puntos de datos y trazar los datos me hace pensar que el valor lambda es diferente. El ajuste también produce diferentes valores para lambda.
¿Cómo puedo estar seguro de que ambos conjuntos de datos se originan en una distribución diferente?
Aquí una gráfica de cómo se ven los conjuntos (tenga en cuenta que todos los valores bajo duración = 3 segundos deben descartarse):
ACTUALIZACIÓN: Las distribuciones anteriores se normalizan en ambos casos sobre N solo por compararlas mejor en un gráfico porque el número total de puntos de datos N es diferente.
ACTUALIZACIÓN2: Después del truncamiento, tengo alrededor de 150 valores de por vida para el conjunto de datos rojo y 350 para el conjunto de datos azul. Resulta que 3000 fue exagerado (lo siento).
ACTUALIZACIÓN3: Gracias por soportarme. Aquí están los datos en bruto:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Hasta ahora ajusté una función exponencial a ambos conjuntos de datos y comparé las pendientes. Dado que cualquier normalización no debería cambiar la pendiente de los datos, diferentes pendientes deberían implicar diferentes distribuciones exponenciales subyacentes (Mi experiencia con el análisis estadístico es muy limitada).
Los valores por debajo del umbral se descartan porque la medición detecta muchos eventos con demasiada frecuencia en ese régimen.
ACTUALIZACIÓN4: Me acabo de dar cuenta de que mi problema es mucho más complicado de lo que pensaba. De hecho, he dejado los datos censurados (no sé el comienzo de algunos eventos) y los datos censurados a la derecha (no sé el final de algunos eventos) Y tengo que descartar todas las vidas de menos de 3s (truncamiento). ¿Hay alguna manera de incorporar todo eso en un análisis? Hasta ahora encontré ayuda sobre cómo trabajar con datos censurados (análisis de supervivencia), pero ¿qué debo hacer con el truncamiento?
Respuestas:
Las vidas distribuidas exponencialmente son un caso especialmente simple para el análisis de supervivencia . A menudo, analizarlos es el primer ejemplo que se trabajó para que los estudiantes comiencen antes de pasar a situaciones más complicadas. Además, el análisis de supervivencia se adapta naturalmente a los datos censurados. En resumen, le sugiero que utilice el análisis de supervivencia con un indicador de agrupación para las dos distribuciones como efecto del tratamiento. Puede usar un modelo paramétrico (por ejemplo, el modelo de Weibull, ya que el exponencial es un caso especial del Weibull ), o puede usar métodos no paramétricos, como la prueba de rango de registro , si lo prefiere.
fuente
Está interesado en la siguiente prueba: donde es el único parámetro que identifica de forma exclusiva la distribución exponencial con la que está tratando. Como también corresponde a la media de esta distribución, usted está esencialmente interesado en probar la diferencia de medias en estas dos distribuciones.H0:λ1=λ2 λi λ
Dado que tiene un tamaño de muestra grande, para probar esto podemos recurrir al teorema del límite central que nos dice lo siguiente:
Teorema del límite central: suponga que es una secuencia de variables aleatorias iid con . Luego, cuando acerca al infinito, la variable aleatoria converge en distribución a una distribución normal .X1,X2,...Xn E[Xi]=μ and Var[Xi]=σ2<∞ n n−−√(X¯−μ) N(0,σ2)
En otras palabras, sus medias muestrales para cada uno de los dos grupos están aproximadamente distribuidas normalmente. Como no conoce el verdadero valor de , puede realizar una prueba t para una diferencia de medias.σ2
fuente