Estoy aprendiendo el análisis de supervivencia de esta publicación en UCLA IDRE y me tropecé en la sección 1.2.1. El tutorial dice:
... si se supiera que los tiempos de supervivencia están distribuidos exponencialmente , entonces la probabilidad de observar un tiempo de supervivencia ...
¿Por qué se supone que los tiempos de supervivencia están distribuidos exponencialmente? Me parece muy antinatural.
¿Por qué no se distribuye normalmente? Digamos, supongamos que estamos investigando la vida útil de alguna criatura bajo ciertas condiciones (digamos número de días), ¿debería estar más centrado en algún número con alguna variación (digamos 100 días con variación 3 días)?
Si queremos que el tiempo sea estrictamente positivo, ¿por qué no hacer una distribución normal con una media más alta y una varianza muy pequeña (casi no habrá posibilidad de obtener un número negativo)?
fuente
Respuestas:
Las distribuciones exponenciales a menudo se usan para modelar los tiempos de supervivencia porque son las distribuciones más simples que se pueden usar para caracterizar los datos de supervivencia / confiabilidad. Esto se debe a que no tienen memoria y, por lo tanto, la función de peligro es constante w / r / t tiempo, lo que hace que el análisis sea muy simple. Este tipo de suposición puede ser válida, por ejemplo, para algunos tipos de componentes electrónicos, como los circuitos integrados de alta calidad. Estoy seguro de que puede pensar en más ejemplos en los que se puede suponer que el efecto del tiempo sobre el peligro es insignificante.
Sin embargo, tiene razón al observar que esto no sería una suposición apropiada en muchos casos. Las distribuciones normales pueden estar bien en algunas situaciones, aunque obviamente los tiempos de supervivencia negativos no tienen sentido. Por esta razón, a menudo se consideran las distribuciones lognormales. Otras opciones comunes incluyen Weibull, el valor extremo más pequeño, el valor extremo más grande, la logística, etc. Una elección sensata para el modelo se basaría en la experiencia del área temática y el trazado de probabilidad . También puede, por supuesto, considerar el modelado no paramétrico.
Una buena referencia para el modelado paramétrico clásico en el análisis de supervivencia es: William Q. Meeker y Luis A. Escobar (1998). Métodos estadísticos para datos de confiabilidad , Wiley
fuente
Para agregar un poco de intuición matemática detrás de cómo aparecen los exponentes en las distribuciones de supervivencia:
La densidad de probabilidad de una variable de supervivencia es , donde h ( t ) es el peligro actual (riesgo de que una persona "muera" este día) y S ( t ) es el probabilidad de que una persona haya sobrevivido hasta t . S ( t ) se puede ampliar como la probabilidad de que una persona haya sobrevivido el día 1 y el día 2, ... hasta el día t . Entonces: P ( s u r v iF(t)=h(t)S(t) h(t) S(t) t S(t) t P ( s u r v i v e d d a y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t
Con peligro constante y pequeño λ , podemos usar:
e - λ ≈ 1 -
Descargo de responsabilidad: esto no es de ninguna manera un intento de una derivación adecuada del pdf; me acabo de dar cuenta de que es una coincidencia clara y agradezco cualquier comentario sobre por qué esto es correcto / incorrecto.
EDITAR: cambió la aproximación por consejo de @SamT, vea los comentarios para la discusión.
fuente
Seguramente querrá ver la ingeniería de confiabilidad y las predicciones para análisis exhaustivos de los tiempos de supervivencia. Dentro de eso, hay algunas distribuciones que se usan a menudo:
La distribución Weibull (o "bañera") es la más compleja. Da cuenta de tres tipos de modos de falla, que dominan a diferentes edades: mortalidad infantil (donde las partes defectuosas se rompen temprano), fallas inducidas (donde las partes se rompen al azar a lo largo de la vida útil del sistema) y se desgastan (donde las partes se rompen por utilizar). Como se usa, tiene un PDF que se parece a "\ __ /". Especialmente para algunos dispositivos electrónicos, es posible que escuche sobre tiempos de "quemado", lo que significa que esas partes ya han sido operadas a través de la parte "\" de la curva, y las fallas tempranas se han eliminado (idealmente). Desafortunadamente, el análisis de Weibull se descompone rápidamentesi sus partes no son homogéneas (¡incluido el entorno de uso!) o si las está usando en diferentes escalas de tiempo (por ejemplo, si algunas partes se usan directamente y otras se almacenan primero, la tasa de "falla aleatoria" va a ser significativamente diferente, debido a la combinación de dos mediciones de tiempo (horas de operación versus horas de uso).
Las distribuciones normales son casi siempre incorrectas. Toda distribución normal tiene valores negativos, ninguna distribución de confiabilidad sí. A veces pueden ser una aproximación útil, pero las veces que eso es cierto, casi siempre estás viendo un registro normal de todos modos, por lo que también puedes usar la distribución correcta. Las distribuciones logarítmicas normales se usan correctamente cuando tiene algún tipo de desgaste y fallas aleatorias insignificantes, ¡ y en ninguna otra circunstancia! Al igual que la distribución Normal, son lo suficientemente flexibles como para que pueda forzarlos a ajustarse a la mayoría de los datos; necesita resistir ese impulso y verificar que las circunstancias tengan sentido.
Finalmente, la distribución exponencial es el verdadero caballo de batalla. A menudo no sabe la antigüedad de las partes (por ejemplo, cuando las partes no están serializadas y tienen diferentes momentos en que entraron en servicio), por lo que cualquier distribución basada en memoria está fuera. Además, muchas partes tienen un tiempo de desgaste que es tan arbitrariamente largo que está completamente dominado por fallas inducidas o fuera del marco de tiempo útil del análisis. Entonces, aunque puede no ser un modelo tan perfecto como otras distribuciones, simplemente no le importan las cosas que los hacen tropezar. Si tiene un MTTF (tiempo de población / conteo de fallas), tiene una distribución exponencial. Además de eso, no necesita ninguna comprensión física de su sistema. Puedes hacer estimaciones exponenciales solobasado en la parte observada MTTFs (suponiendo una muestra lo suficientemente grande), y salen bastante cerca. También es resistente a las causas: si cada dos meses, alguien se aburre y juega al croquet con alguna parte hasta que se rompe, eso lo explica de forma exponencial (entra en el MTTF). Exponencial también es lo suficientemente simple como para que pueda hacer cálculos de última generación para la disponibilidad de sistemas redundantes y demás, lo que aumenta significativamente su utilidad.
fuente
Para responder a su pregunta explícita, no puede usar la distribución normal para la supervivencia porque la distribución normal va al infinito negativo y la supervivencia es estrictamente no negativa. Además, no creo que sea cierto que "los tiempos de supervivencia se supone que están distribuidos exponencialmente" por alguien en la realidad.
Con mayor frecuencia, las distribuciones de supervivencia son complejas y no se ajustan bien a ninguna distribución con nombre. Por lo general, las personas ni siquiera se molestan en tratar de averiguar qué distribución podría ser. Eso es lo que hace que el modelo de riesgos proporcionales de Cox sea tan popular: es semi-paramétrico porque el riesgo de la línea de base puede dejarse completamente sin especificar, pero el resto del modelo puede ser paramétrico en términos de su relación con la línea de base no especificada.
fuente
Alguna ecología podría ayudar a responder el "Por qué" detrás de esta pregunta.
La razón por la que se usa la distribución exponencial para modelar la supervivencia se debe a las estrategias de vida involucradas en los organismos que viven en la naturaleza. Básicamente, hay dos extremos con respecto a la estrategia de supervivencia con algo de espacio para el término medio.
Aquí hay una imagen que ilustra lo que quiero decir (cortesía de Khan Academy):
Este gráfico traza a los individuos sobrevivientes en el eje Y, y el "porcentaje de la esperanza de vida máxima" (también conocida como aproximación de la edad del individuo) en el eje X.
El tipo I son los humanos, que modelan organismos que tienen un nivel extremo de cuidado de su descendencia asegurando una mortalidad infantil muy baja. A menudo, estas especies tienen muy poca descendencia porque cada una requiere una gran cantidad de tiempo y esfuerzo de los padres. La mayoría de lo que mata a los organismos Tipo I es el tipo de complicaciones que surgen en la vejez. La estrategia aquí es una alta inversión para una alta recompensa en vidas largas y productivas, a costa de números absolutos.
Por el contrario, el Tipo III está modelado por árboles (pero también podría ser plancton, corales, peces reproductores, muchos tipos de insectos, etc.) donde el padre invierte relativamente poco en cada descendencia, pero produce una tonelada de ellos con la esperanza de que algunos lo hagan sobrevivir. La estrategia aquí es "rociar y orar" con la esperanza de que, si bien la mayoría de los descendientes serán destruidos relativamente rápido por los depredadores que aprovechan las cosechas fáciles, los pocos que sobreviven el tiempo suficiente para crecer serán cada vez más difíciles de matar, llegando a ser (prácticamente) imposible ser comido Mientras tanto, estos individuos producen un gran número de descendientes con la esperanza de que unos pocos también sobrevivan a su propia edad.
El Tipo II es una estrategia mediana con inversión moderada de los padres para una supervivencia moderada en todas las edades.
Tuve un profesor de ecología que lo expresó de esta manera:
"El Tipo III (árboles) es la 'Curva de Esperanza', porque cuanto más tiempo sobrevive un individuo, es más probable que continúe sobreviviendo. Mientras tanto, el Tipo I (humanos) es la 'Curva de Desesperación', porque cuanto más tiempo vives, es más probable que mueras ".
fuente
Esto no responde directamente a la pregunta, pero creo que es muy importante tener en cuenta, y no encaja bien en un solo comentario.
Si bien la distribución exponencial tiene una derivación teórica muy agradable y, por lo tanto, suponiendo que los datos producidos sigan los mecanismos asumidos en la distribución exponencial, en teoría debería dar estimaciones óptimas, en la práctica todavía tengo que encontrar un conjunto de datos donde la distribución exponencial produce incluso cerca de resultados aceptables (por supuesto, esto depende de los tipos de datos que he analizado, casi todos los datos biológicos). Por ejemplo, acabo de ver cómo ajustar un modelo con una variedad de distribuciones usando el primer conjunto de datos que pude encontrar en mi paquete R. Para la verificación del modelo de la distribución de la línea de base, generalmente comparamos con el modelo semiparamétrico. Echa un vistazo a los resultados.
De la distribución Weibull, log-logistic y log-normal, no hay un vencedor claro absoluto en términos de ajuste apropiado. Pero hay un claro perdedor: ¡la distribución exponencial! Según mi experiencia, esta magnitud de desajuste no es excepcional, sino más bien la norma para la distribución exponencial.
¿Por qué? Porque la distribución exponencial es una familia de un solo parámetro. Por lo tanto, si especifico la media de esta distribución, he especificado todos los demás momentos de la distribución. Estas otras familias son las dos familias de parámetros. Por lo tanto, hay mucha más flexibilidad en esas familias para adaptarse a los datos en sí.
Ahora tenga en cuenta que la distribución de Weibull tiene la distribución exponencial como un caso especial (es decir, cuando el parámetro de forma = 1). Entonces, incluso si los datos realmente son exponenciales, solo agregamos un poco más de ruido a nuestras estimaciones utilizando una distribución de Weibull sobre una distribución exponencial. Como tal, casi nunca recomendaría usar la distribución exponencial para modelar datos reales (y tengo curiosidad por saber si algún lector tiene un ejemplo de cuándo es realmente una buena idea).
fuente
Otra razón por la cual la distribución exponencial surge a menudo para modelar el intervalo entre eventos es la siguiente.
Es bien sabido que, bajo algunos supuestos, la suma de un gran número de variables aleatorias independientes estará cerca de una distribución gaussiana. Un teorema similar es válido para los procesos de renovación , es decir, modelos estocásticos para eventos que ocurren aleatoriamente en el tiempo con intervalos entre eventos IID. De hecho, el teorema de Palm-Khintchine establece que la superposición de un gran número de procesos de renovación (no necesariamente Poissonianos) se comporta asintóticamente como un proceso de Poisson . Los intervalos entre eventos de un proceso de Poisson se distribuyen exponencialmente.
fuente
tl; dr : una distribución exponencial es equivalente a suponer que los individuos tienen más probabilidades de morir en cualquier momento dado que cualquier otro.
Derivación
Suponga que un individuo vivo tiene más probabilidades de morir en cualquier momento dado que en cualquier otro.
Entonces, la tasa de mortalidad- d Pd t es proporcional a la población, PAGS .
Entonces, la población sigue una distribución exponencial.
Nota matemática
La matemática anterior es una reducción de una ecuación diferencial ordinaria de primer orden (ODE) . Normalmente, también resolveríamosdo0 0 al observar la condición límite de que la población comienza en algún valor dado,PAGS( t0 0) , a la hora de inicio t0 0 .
Entonces la ecuación se convierte en:
Control de la realidad
La distribución exponencial supone que las personas de la población tienden a morir a la misma velocidad con el tiempo. En realidad, las tasas de mortalidad tenderán a variar para las poblaciones finitas.
Llegar a mejores distribuciones implica ecuaciones diferenciales estocásticas . Entonces, no podemos decir que hay una probabilidad de muerte constante; más bien, tenemos que llegar a una distribución para las probabilidades de morir de cada individuo en un momento dado, luego combinar esos diversos árboles de posibilidades para toda la población, y luego resolver esa ecuación diferencial con el tiempo.
No recuerdo haber visto esto hecho en línea antes, así que probablemente no te encuentres con él; pero, ese es el siguiente paso de modelado si desea mejorar la distribución exponencial.
fuente
(Tenga en cuenta que en la parte que citó, el enunciado era condicional; la oración en sí no asumía una supervivencia exponencial, explicaba una consecuencia de hacerlo. Sin embargo, la suposición de supervivencia exponencial es común, por lo que vale la pena abordar la cuestión de "por qué exponencial "y" por qué no es normal ", dado que el primero ya está bastante bien cubierto, me concentraré más en el segundo)
Los tiempos de supervivencia normalmente distribuidos no tienen sentido porque tienen una probabilidad distinta de cero de que el tiempo de supervivencia sea negativo.
Si luego restringe su consideración a distribuciones normales que casi no tienen posibilidades de estar cerca de cero, no puede modelar datos de supervivencia que tengan una probabilidad razonable de un tiempo de supervivencia corto:
Tal vez, de vez en cuando, los tiempos de supervivencia que casi no tienen posibilidades de tiempos de supervivencia cortos serían razonables, pero necesita distribuciones que tengan sentido en la práctica; por lo general, observa tiempos de supervivencia cortos y largos (y cualquier cosa intermedia), con un sesgo típicamente sesgado distribución de tiempos de supervivencia). Una distribución normal no modificada rara vez será útil en la práctica.
[Una normal truncada podría ser más a menudo una aproximación aproximada razonable que una normal, pero otras distribuciones a menudo serán mejores.]
El riesgo constante de la exponencial es a veces una aproximación razonable para los tiempos de supervivencia. Por ejemplo, si los "eventos aleatorios" como el accidente son un contribuyente importante a la tasa de mortalidad, la supervivencia exponencial funcionará bastante bien. (Entre las poblaciones animales, por ejemplo, a veces, tanto la depredación como la enfermedad pueden actuar al menos aproximadamente como un proceso fortuito, dejando algo así como una exponencial como una primera aproximación razonable a los tiempos de supervivencia).
De hecho, eso podría ser un poco mejor ... pero tenga en cuenta que eso correspondería a un peligro infinito en 0, por lo que solo sería útil ocasionalmente. Si bien puede modelar casos con una proporción muy alta de tiempos muy cortos, tiene el problema inverso de solo poder modelar casos con una supervivencia típicamente mucho más corta que la media (el 25% de los tiempos de supervivencia están por debajo del 10,15% del tiempo medio de supervivencia y la mitad de los tiempos de supervivencia son menos del 45,5% de la media; es decir, la supervivencia media es menos de la mitad de la media).
Veamos un escaladoχ21 (es decir, un gamma con parámetro de forma 12 ):
[Tal vez si sumas dos de esosχ21 varía ... o tal vez si consideraste no central χ2 obtendrías algunas posibilidades adecuadas. Fuera de lo exponencial, las opciones comunes de distribuciones paramétricas para tiempos de supervivencia incluyen Weibull, lognormal, gamma, log-logistic entre muchos otros ... tenga en cuenta que Weibull y gamma incluyen el exponencial como un caso especial]
fuente
Porque
que todavía tiene una probabilidad distinta de cero de ser negativa, por lo que no es estrictamente positiva;
la media y la varianza son algo que puede medir a partir de la población que está tratando de modelar. Si su población tiene media 2 y varianza 1, y la modela con una distribución normal, esa distribución normal tendrá una masa sustancial por debajo de cero; Si lo modela con una distribución normal con media 5 y varianza 0.1, su modelo obviamente tiene propiedades muy diferentes a lo que se supone que debe modelar.
La distribución normal tiene una forma particular, y esa forma es simétrica respecto a la media. La única forma de ajustar la forma es moverla hacia la derecha y hacia la izquierda (aumentar o disminuir la media) o hacerla más o menos extendida (aumentar o disminuir la varianza). Esto significa que la única forma de obtener una distribución normal donde la mayor parte de la masa está entre dos y diez y solo una pequeña cantidad de la masa está por debajo de cero, debe poner su media en, digamos, seis (la mitad del rango ) y establezca la varianza lo suficientemente pequeña como para que solo una pequeña fracción de las muestras sean negativas. Pero probablemente descubra que la mayoría de sus muestras son 5, 6 o 7, mientras que se suponía que tenía un buen número de 2, 3, 4, 8, 9 y 10.
fuente