¿Por qué se supone que los tiempos de supervivencia están distribuidos exponencialmente?

36

Estoy aprendiendo el análisis de supervivencia de esta publicación en UCLA IDRE y me tropecé en la sección 1.2.1. El tutorial dice:

... si se supiera que los tiempos de supervivencia están distribuidos exponencialmente , entonces la probabilidad de observar un tiempo de supervivencia ...

¿Por qué se supone que los tiempos de supervivencia están distribuidos exponencialmente? Me parece muy antinatural.

¿Por qué no se distribuye normalmente? Digamos, supongamos que estamos investigando la vida útil de alguna criatura bajo ciertas condiciones (digamos número de días), ¿debería estar más centrado en algún número con alguna variación (digamos 100 días con variación 3 días)?

Si queremos que el tiempo sea estrictamente positivo, ¿por qué no hacer una distribución normal con una media más alta y una varianza muy pequeña (casi no habrá posibilidad de obtener un número negativo)?

Haitao Du
fuente
99
Heurísticamente, no puedo pensar en la distribución normal como una forma intuitiva de modelar el tiempo de falla. Nunca aparece en ninguno de mis trabajos aplicados. Siempre están sesgados muy a la derecha. Creo que las distribuciones normales se producen heurísticamente como una cuestión de promedios, mientras que los tiempos de supervivencia se producen heurísticamente como una cuestión de extremos, como el efecto de un peligro constante que se aplica a una secuencia de componentes paralelos o en serie.
AdamO
66
Estoy de acuerdo con @AdamO sobre las distribuciones extremas inherentes a la supervivencia y el tiempo hasta el fracaso. Como otros han señalado, los supuestos exponenciales tienen la ventaja de ser manejables. El mayor problema con ellos es la suposición implícita de una tasa constante de descomposición. Son posibles otras formas funcionales y vienen como opciones estándar dependiendo del software, por ejemplo, gamma generalizado. Las pruebas de bondad de ajuste pueden emplearse para probar diferentes formas funcionales y supuestos. El mejor texto sobre modelos de supervivencia es el Análisis de supervivencia de Paul Allison usando SAS, 2ª ed. Olvídate de SAS: es una excelente reseña
Mike Hunter
8
Me gustaría señalar que la primera palabra en su cita es " si "
Fomite

Respuestas:

41

Las distribuciones exponenciales a menudo se usan para modelar los tiempos de supervivencia porque son las distribuciones más simples que se pueden usar para caracterizar los datos de supervivencia / confiabilidad. Esto se debe a que no tienen memoria y, por lo tanto, la función de peligro es constante w / r / t tiempo, lo que hace que el análisis sea muy simple. Este tipo de suposición puede ser válida, por ejemplo, para algunos tipos de componentes electrónicos, como los circuitos integrados de alta calidad. Estoy seguro de que puede pensar en más ejemplos en los que se puede suponer que el efecto del tiempo sobre el peligro es insignificante.

Sin embargo, tiene razón al observar que esto no sería una suposición apropiada en muchos casos. Las distribuciones normales pueden estar bien en algunas situaciones, aunque obviamente los tiempos de supervivencia negativos no tienen sentido. Por esta razón, a menudo se consideran las distribuciones lognormales. Otras opciones comunes incluyen Weibull, el valor extremo más pequeño, el valor extremo más grande, la logística, etc. Una elección sensata para el modelo se basaría en la experiencia del área temática y el trazado de probabilidad . También puede, por supuesto, considerar el modelado no paramétrico.

Una buena referencia para el modelado paramétrico clásico en el análisis de supervivencia es: William Q. Meeker y Luis A. Escobar (1998). Métodos estadísticos para datos de confiabilidad , Wiley

klumbard
fuente
¿podría elaborar más sobre "la función de peligro es constante w / r / t tiempo"?
Haitao Du
44
@ hxd1011: presumiblemente por "función de peligro" el autor se refiere a la función dada por r X ( t ) = f X ( t ) / ˉ F X ( t ) , donde f X es el pdf de X y ˉ F X es la cola de X ( ˉ F X ( t ) = 1 - F X ( t ) = trXrX(t)=fX(t)/F¯X(t)fXXF¯XX ). Esto también se llamatasa de falla. La observación es que para Exp ( λ ) , la tasa de falla es r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λ , que es constante. Además, no es difícil demostrar quesolola distribución exponencial tiene esta propiedad. F¯X(t)=1-FX(t)=tFX(X)reXExp(λ)r(t)=(λmi-λt)/ /(mi-λt)=λ
wchargin
22

Para agregar un poco de intuición matemática detrás de cómo aparecen los exponentes en las distribuciones de supervivencia:

La densidad de probabilidad de una variable de supervivencia es , donde h ( t ) es el peligro actual (riesgo de que una persona "muera" este día) y S ( t ) es el probabilidad de que una persona haya sobrevivido hasta t . S ( t ) se puede ampliar como la probabilidad de que una persona haya sobrevivido el día 1 y el día 2, ... hasta el día t . Entonces: P ( s u r v if(t)=h(t)S(t)h(t)S(t)tS(t)tP ( s u r v i v e d d a y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t Con peligro constante y pequeño λ , podemos usar: e - λ1 -

P(survived day t)=1h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ para aproximar S ( t ) como simplemente ( 1 - λ ) te - λ t , y la densidad de probabilidad es entonces f ( t ) = h ( t ) S ( t ) = λ e - λ t
eλ1λ
S(t)
(1λ)teλt
F(t)=h(t)S(t)=λmi-λt

Descargo de responsabilidad: esto no es de ninguna manera un intento de una derivación adecuada del pdf; me acabo de dar cuenta de que es una coincidencia clara y agradezco cualquier comentario sobre por qué esto es correcto / incorrecto.

EDITAR: cambió la aproximación por consejo de @SamT, vea los comentarios para la discusión.

juod
fuente
1
+1 esto me ayudó a comprender más sobre las propiedades de distribución exponencial.
Haitao Du
1
S(t)=...tλt(1+X/ /norte)norte miXX=o(norte)limt(1-λt/ /t)t=mi-λtt
tλ
1
λλt
(1+X/ /norte)nortemiX
λ
mi-λt=(mi-λ)t(1-λ)t.
λ=λt/ /t
mi-λt(1-λt/ /t)t.
Al aplicarlo, puede sentir que esto es un poco exigente, pero el punto es que el razonamiento no era válido; pasos similares no válidos pueden no ser ciertos. Por supuesto, cuando alguien solicitó, puede estar feliz de hacer este paso, encontrarlo en la mayoría de los casos y no preocuparse por los detalles. Como alguien que hace matemática pura, esto está fuera de discusión para mí, ¡pero entiendo que necesitamos tanto puro como aplicado! (Y particularmente en las estadísticas es bueno no empantanarse en tecnicismos puros).
Sam T
11

Seguramente querrá ver la ingeniería de confiabilidad y las predicciones para análisis exhaustivos de los tiempos de supervivencia. Dentro de eso, hay algunas distribuciones que se usan a menudo:

La distribución Weibull (o "bañera") es la más compleja. Da cuenta de tres tipos de modos de falla, que dominan a diferentes edades: mortalidad infantil (donde las partes defectuosas se rompen temprano), fallas inducidas (donde las partes se rompen al azar a lo largo de la vida útil del sistema) y se desgastan (donde las partes se rompen por utilizar). Como se usa, tiene un PDF que se parece a "\ __ /". Especialmente para algunos dispositivos electrónicos, es posible que escuche sobre tiempos de "quemado", lo que significa que esas partes ya han sido operadas a través de la parte "\" de la curva, y las fallas tempranas se han eliminado (idealmente). Desafortunadamente, el análisis de Weibull se descompone rápidamentesi sus partes no son homogéneas (¡incluido el entorno de uso!) o si las está usando en diferentes escalas de tiempo (por ejemplo, si algunas partes se usan directamente y otras se almacenan primero, la tasa de "falla aleatoria" va a ser significativamente diferente, debido a la combinación de dos mediciones de tiempo (horas de operación versus horas de uso).

Las distribuciones normales son casi siempre incorrectas. Toda distribución normal tiene valores negativos, ninguna distribución de confiabilidad sí. A veces pueden ser una aproximación útil, pero las veces que eso es cierto, casi siempre estás viendo un registro normal de todos modos, por lo que también puedes usar la distribución correcta. Las distribuciones logarítmicas normales se usan correctamente cuando tiene algún tipo de desgaste y fallas aleatorias insignificantes, ¡ y en ninguna otra circunstancia! Al igual que la distribución Normal, son lo suficientemente flexibles como para que pueda forzarlos a ajustarse a la mayoría de los datos; necesita resistir ese impulso y verificar que las circunstancias tengan sentido.

Finalmente, la distribución exponencial es el verdadero caballo de batalla. A menudo no sabe la antigüedad de las partes (por ejemplo, cuando las partes no están serializadas y tienen diferentes momentos en que entraron en servicio), por lo que cualquier distribución basada en memoria está fuera. Además, muchas partes tienen un tiempo de desgaste que es tan arbitrariamente largo que está completamente dominado por fallas inducidas o fuera del marco de tiempo útil del análisis. Entonces, aunque puede no ser un modelo tan perfecto como otras distribuciones, simplemente no le importan las cosas que los hacen tropezar. Si tiene un MTTF (tiempo de población / conteo de fallas), tiene una distribución exponencial. Además de eso, no necesita ninguna comprensión física de su sistema. Puedes hacer estimaciones exponenciales solobasado en la parte observada MTTFs (suponiendo una muestra lo suficientemente grande), y salen bastante cerca. También es resistente a las causas: si cada dos meses, alguien se aburre y juega al croquet con alguna parte hasta que se rompe, eso lo explica de forma exponencial (entra en el MTTF). Exponencial también es lo suficientemente simple como para que pueda hacer cálculos de última generación para la disponibilidad de sistemas redundantes y demás, lo que aumenta significativamente su utilidad.

Mónica libre de fectina
fuente
3
Esta es una buena respuesta, pero tenga en cuenta que la distribución de Weibull no es la distribución paramétrica "más compleja" para los modelos de supervivencia. No estoy seguro de si podría haber tal cosa, pero ciertamente en relación con el Weibull existe la distribución generalizada de Gamma y la distribución generalizada de F , que pueden tomar el Weibull como un caso especial al establecer los parámetros en 0.
gung - Restablecer Monica
Es el más complejo que se usa comúnmente en ingeniería de confiabilidad (primer párrafo :) No estoy en desacuerdo con su punto, pero tampoco he visto ninguno de ellos realmente usado (resúmenes de cómo podrían usarse, sí. Implementación real, no )
fectina - gratis Monica
9

Para responder a su pregunta explícita, no puede usar la distribución normal para la supervivencia porque la distribución normal va al infinito negativo y la supervivencia es estrictamente no negativa. Además, no creo que sea cierto que "los tiempos de supervivencia se supone que están distribuidos exponencialmente" por alguien en la realidad.

zt

>1<1

Con mayor frecuencia, las distribuciones de supervivencia son complejas y no se ajustan bien a ninguna distribución con nombre. Por lo general, las personas ni siquiera se molestan en tratar de averiguar qué distribución podría ser. Eso es lo que hace que el modelo de riesgos proporcionales de Cox sea tan popular: es semi-paramétrico porque el riesgo de la línea de base puede dejarse completamente sin especificar, pero el resto del modelo puede ser paramétrico en términos de su relación con la línea de base no especificada.

gung - Restablece a Monica
fuente
44
"Además, no creo que sea cierto que" se supone que los tiempos de supervivencia están distribuidos exponencialmente "por cualquier persona en la realidad". De hecho, he encontrado que es bastante común en epidemiología, generalmente implícitamente.
Fomite
1
@gung, ¿podría explicar amablemente? Es semi-paramétrico porque el riesgo de la línea de base puede dejarse completamente sin especificar, pero el resto del modelo puede ser paramétrico en términos de su relación con la línea de base no especificada
Gaurav Singhal
7

Alguna ecología podría ayudar a responder el "Por qué" detrás de esta pregunta.

La razón por la que se usa la distribución exponencial para modelar la supervivencia se debe a las estrategias de vida involucradas en los organismos que viven en la naturaleza. Básicamente, hay dos extremos con respecto a la estrategia de supervivencia con algo de espacio para el término medio.

Aquí hay una imagen que ilustra lo que quiero decir (cortesía de Khan Academy):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

Este gráfico traza a los individuos sobrevivientes en el eje Y, y el "porcentaje de la esperanza de vida máxima" (también conocida como aproximación de la edad del individuo) en el eje X.

El tipo I son los humanos, que modelan organismos que tienen un nivel extremo de cuidado de su descendencia asegurando una mortalidad infantil muy baja. A menudo, estas especies tienen muy poca descendencia porque cada una requiere una gran cantidad de tiempo y esfuerzo de los padres. La mayoría de lo que mata a los organismos Tipo I es el tipo de complicaciones que surgen en la vejez. La estrategia aquí es una alta inversión para una alta recompensa en vidas largas y productivas, a costa de números absolutos.

Por el contrario, el Tipo III está modelado por árboles (pero también podría ser plancton, corales, peces reproductores, muchos tipos de insectos, etc.) donde el padre invierte relativamente poco en cada descendencia, pero produce una tonelada de ellos con la esperanza de que algunos lo hagan sobrevivir. La estrategia aquí es "rociar y orar" con la esperanza de que, si bien la mayoría de los descendientes serán destruidos relativamente rápido por los depredadores que aprovechan las cosechas fáciles, los pocos que sobreviven el tiempo suficiente para crecer serán cada vez más difíciles de matar, llegando a ser (prácticamente) imposible ser comido Mientras tanto, estos individuos producen un gran número de descendientes con la esperanza de que unos pocos también sobrevivan a su propia edad.

El Tipo II es una estrategia mediana con inversión moderada de los padres para una supervivencia moderada en todas las edades.

Tuve un profesor de ecología que lo expresó de esta manera:

"El Tipo III (árboles) es la 'Curva de Esperanza', porque cuanto más tiempo sobrevive un individuo, es más probable que continúe sobreviviendo. Mientras tanto, el Tipo I (humanos) es la 'Curva de Desesperación', porque cuanto más tiempo vives, es más probable que mueras ".

CaffeineConnoisseur
fuente
Esto es interesante, pero tenga en cuenta que para los humanos, antes de la medicina moderna (y aún en algunos lugares del mundo hoy), la mortalidad infantil es muy alta. La supervivencia humana basal a menudo se modela con " peligro de bañera ".
gung - Restablece a Monica
@gung Absolutamente, esta es una generalización amplia y hay variaciones dentro de los humanos de diferentes regiones y períodos de tiempo. La diferencia principal es más clara cuando se comparan los extremos, es decir, las familias humanas occidentales (~ 2.5 niños por pareja, la mayoría de los cuales no mueren en la infancia) frente a los corales o peces reproductores (millones de huevos liberados por ciclo de apareamiento, la mayoría de los cuales morir debido a ser comido, a la inanición, a la química peligrosa del agua, o simplemente a la deriva a un destino habitable)
CaffeineConnoisseur
1
Si bien estoy a favor de las explicaciones de la ecología, notaré que suposiciones como esta también se hacen para cosas como discos duros y motores de aviones.
Fomite
6

Esto no responde directamente a la pregunta, pero creo que es muy importante tener en cuenta, y no encaja bien en un solo comentario.

Si bien la distribución exponencial tiene una derivación teórica muy agradable y, por lo tanto, suponiendo que los datos producidos sigan los mecanismos asumidos en la distribución exponencial, en teoría debería dar estimaciones óptimas, en la práctica todavía tengo que encontrar un conjunto de datos donde la distribución exponencial produce incluso cerca de resultados aceptables (por supuesto, esto depende de los tipos de datos que he analizado, casi todos los datos biológicos). Por ejemplo, acabo de ver cómo ajustar un modelo con una variedad de distribuciones usando el primer conjunto de datos que pude encontrar en mi paquete R. Para la verificación del modelo de la distribución de la línea de base, generalmente comparamos con el modelo semiparamétrico. Echa un vistazo a los resultados.

Curvas de supervivencia

De la distribución Weibull, log-logistic y log-normal, no hay un vencedor claro absoluto en términos de ajuste apropiado. Pero hay un claro perdedor: ¡la distribución exponencial! Según mi experiencia, esta magnitud de desajuste no es excepcional, sino más bien la norma para la distribución exponencial.

¿Por qué? Porque la distribución exponencial es una familia de un solo parámetro. Por lo tanto, si especifico la media de esta distribución, he especificado todos los demás momentos de la distribución. Estas otras familias son las dos familias de parámetros. Por lo tanto, hay mucha más flexibilidad en esas familias para adaptarse a los datos en sí.

Ahora tenga en cuenta que la distribución de Weibull tiene la distribución exponencial como un caso especial (es decir, cuando el parámetro de forma = 1). Entonces, incluso si los datos realmente son exponenciales, solo agregamos un poco más de ruido a nuestras estimaciones utilizando una distribución de Weibull sobre una distribución exponencial. Como tal, casi nunca recomendaría usar la distribución exponencial para modelar datos reales (y tengo curiosidad por saber si algún lector tiene un ejemplo de cuándo es realmente una buena idea).

Acantilado
fuente
1
No estoy convencido de esta respuesta: 1) "usando el primer conjunto de datos que pude encontrar en mi paquete R" ... ¿En serio? ... en stats.stackexchange? ¿Una muestra aleatoria y sacamos conclusiones generales? 1b) Para los modelos donde el tiempo de falla tiende a distribuirse alrededor de un valor dado (como la vida de las personas), claramente las distribuciones como Gamma, Weibull, etc. son más adecuadas; cuando los eventos son igualmente probables, una distribución exponencial es más adecuada. Apuesto a que su "primer conjunto de datos" anterior es del primer tipo. 2) Todos los demás modelos tienen 2 parámetros, uno debería usar, por ejemplo, el factor Bayes para comparar los modelos.
Luca Citi
2
@LucaCiti: "el primer conjunto de datos en mi paquete R" significa el primer conjunto de datos en el paquete R que publiqué (icenReg). Y noté que mi experiencia con la distribución exponencial siempre teniendo un mal ajuste dependía del tipo de datos que he analizado; casi exclusivamente datos biológicos. Finalmente, como dije al final, tengo mucha curiosidad por escuchar ejemplos reales aplicados donde hay una razón convincente para usar la distribución exponencial, así que si tiene una, por favor comparta.
Cliff AB
1
Un escenario en el que es posible que desee utilizar la distribución exponencial sería cuando (a) tenía muchos datos históricos que mostraban que los datos realmente estaban bien aproximados con una distribución exponencial y (b) necesitaban hacer inferencia con muestras pequeñas ( es decir, n <10). Pero no conozco ninguna aplicación real como esta. Tal vez en algún tipo de problema de control de calidad de fabricación?
Cliff AB
1
Hola Cliff, gracias por tomarte el tiempo de responder a mi comentario. Creo que, en términos generales, una distribución como Weibull se ajusta mejor a las situaciones correspondientes a preguntas como "¿cuál es el tiempo de vida del individuo x en mi muestra" o "cuándo la neurona x se disparará de nuevo" o "cuándo la luciérnaga x volverá a parpadear? ". Por el contrario, una distribución exponencial modela preguntas como "cuándo se espera que ocurra la próxima muerte en mi población", "cuándo se disparará la próxima neurona" o "cuándo una luciérnaga en el enjambre va a destellar"
Luca Citi
@LucaCiti; ja, acabo de enterarme que tu poke anterior fue una broma acerca de hacer una inferencia con n = 1. No sé cómo me perdí la primera vez. En mi defensa, si tenemos una teoría que dice que el estimador debe ser asintóticamente normal, pero está a más de 4 desviaciones estándar de las otras estimaciones asintóticamente normales, ¡entonces podemos hacerlo! Pero con toda seriedad, no es esa única trama la que me convenció, sino ver ese mismo nivel de desviación de manera consistente. Sin embargo, puedo bloquearme si envío spam a más de 20 parcelas de malos ajustes exponenciales.
Cliff AB
4

Otra razón por la cual la distribución exponencial surge a menudo para modelar el intervalo entre eventos es la siguiente.

Es bien sabido que, bajo algunos supuestos, la suma de un gran número de variables aleatorias independientes estará cerca de una distribución gaussiana. Un teorema similar es válido para los procesos de renovación , es decir, modelos estocásticos para eventos que ocurren aleatoriamente en el tiempo con intervalos entre eventos IID. De hecho, el teorema de Palm-Khintchine establece que la superposición de un gran número de procesos de renovación (no necesariamente Poissonianos) se comporta asintóticamente como un proceso de Poisson . Los intervalos entre eventos de un proceso de Poisson se distribuyen exponencialmente.

Luca Citi
fuente
3

tl; dr : una distribución exponencial es equivalente a suponer que los individuos tienen más probabilidades de morir en cualquier momento dado que cualquier otro.

Derivación

  1. Suponga que un individuo vivo tiene más probabilidades de morir en cualquier momento dado que en cualquier otro.

  2. Entonces, la tasa de mortalidad -rePAGSret es proporcional a la población, PAGS.

-rePAGSret  PAGS
  1. Resolviendo en WolframAlpha muestra:

PAGS(t)=do1mi-t

Entonces, la población sigue una distribución exponencial.

Nota matemática

La matemática anterior es una reducción de una ecuación diferencial ordinaria de primer orden (ODE) . Normalmente, también resolveríamosdo0 0al observar la condición límite de que la población comienza en algún valor dado,PAGS(t0 0), a la hora de inicio t0 0.

Entonces la ecuación se convierte en:

PAGS(t)=mi-tPAGS(t0 0).

Control de la realidad

La distribución exponencial supone que las personas de la población tienden a morir a la misma velocidad con el tiempo. En realidad, las tasas de mortalidad tenderán a variar para las poblaciones finitas.

Llegar a mejores distribuciones implica ecuaciones diferenciales estocásticas . Entonces, no podemos decir que hay una probabilidad de muerte constante; más bien, tenemos que llegar a una distribución para las probabilidades de morir de cada individuo en un momento dado, luego combinar esos diversos árboles de posibilidades para toda la población, y luego resolver esa ecuación diferencial con el tiempo.

No recuerdo haber visto esto hecho en línea antes, así que probablemente no te encuentres con él; pero, ese es el siguiente paso de modelado si desea mejorar la distribución exponencial.

Nat
fuente
3

(Tenga en cuenta que en la parte que citó, el enunciado era condicional; la oración en sí no asumía una supervivencia exponencial, explicaba una consecuencia de hacerlo. Sin embargo, la suposición de supervivencia exponencial es común, por lo que vale la pena abordar la cuestión de "por qué exponencial "y" por qué no es normal ", dado que el primero ya está bastante bien cubierto, me concentraré más en el segundo)

Los tiempos de supervivencia normalmente distribuidos no tienen sentido porque tienen una probabilidad distinta de cero de que el tiempo de supervivencia sea negativo.

Si luego restringe su consideración a distribuciones normales que casi no tienen posibilidades de estar cerca de cero, no puede modelar datos de supervivencia que tengan una probabilidad razonable de un tiempo de supervivencia corto:

distribuciones de tiempo de supervivencia: promedio normal de 100 sd 10 frente a una distribución particular con un promedio de 100 y sd 42 que tiene más del 20% de probabilidad de tiempos de supervivencia entre 0 y 50

Tal vez, de vez en cuando, los tiempos de supervivencia que casi no tienen posibilidades de tiempos de supervivencia cortos serían razonables, pero necesita distribuciones que tengan sentido en la práctica; por lo general, observa tiempos de supervivencia cortos y largos (y cualquier cosa intermedia), con un sesgo típicamente sesgado distribución de tiempos de supervivencia). Una distribución normal no modificada rara vez será útil en la práctica.

[Una normal truncada podría ser más a menudo una aproximación aproximada razonable que una normal, pero otras distribuciones a menudo serán mejores.]

El riesgo constante de la exponencial es a veces una aproximación razonable para los tiempos de supervivencia. Por ejemplo, si los "eventos aleatorios" como el accidente son un contribuyente importante a la tasa de mortalidad, la supervivencia exponencial funcionará bastante bien. (Entre las poblaciones animales, por ejemplo, a veces, tanto la depredación como la enfermedad pueden actuar al menos aproximadamente como un proceso fortuito, dejando algo así como una exponencial como una primera aproximación razonable a los tiempos de supervivencia).


Una pregunta adicional relacionada con la normal truncada: si lo normal no es apropiado, ¿por qué no normal al cuadrado (chi sq con df 1)?

De hecho, eso podría ser un poco mejor ... pero tenga en cuenta que eso correspondería a un peligro infinito en 0, por lo que solo sería útil ocasionalmente. Si bien puede modelar casos con una proporción muy alta de tiempos muy cortos, tiene el problema inverso de solo poder modelar casos con una supervivencia típicamente mucho más corta que la media (el 25% de los tiempos de supervivencia están por debajo del 10,15% del tiempo medio de supervivencia y la mitad de los tiempos de supervivencia son menos del 45,5% de la media; es decir, la supervivencia media es menos de la mitad de la media).

Veamos un escalado χ12 (es decir, un gamma con parámetro de forma 12):

Gráfico similar al anterior, pero también con densidad de una variante que es 100 veces un chi-cuadrado (1);  tiene un pico alto en 0 y una cola muy pesada: la media es 100 pero el SD es de 141 y la mediana es de aproximadamente 45.

[Tal vez si sumas dos de esos χ12 varía ... o tal vez si consideraste no central χ2obtendrías algunas posibilidades adecuadas. Fuera de lo exponencial, las opciones comunes de distribuciones paramétricas para tiempos de supervivencia incluyen Weibull, lognormal, gamma, log-logistic entre muchos otros ... tenga en cuenta que Weibull y gamma incluyen el exponencial como un caso especial]

Glen_b -Reinstate a Monica
fuente
gracias, he estado esperando tu respuesta desde ayer :). Una pregunta adicional relacionada con la normal truncada: si lo normal no es apropiado, ¿por qué no normal al cuadrado (chi sq con df 1)?
Haitao Du
De hecho, eso podría ser un poco mejor ... pero tenga en cuenta que eso correspondería a un peligro infinito en 0, por lo que solo sería útil ocasionalmente. Tiene el problema inverso de modelar solo casos con una supervivencia típicamente mucho más corta que la media (el 25% de los tiempos de supervivencia están por debajo del 10.15% del tiempo de supervivencia medio y la mitad de los tiempos de supervivencia son menos del 45.5% de la media) Tal vez si suma dos de esosχ12Variaciones en las que podría obtener una función de peligro menos sorprendente. . .;PAGS
Glen_b -Reinstalar Monica
Gracias de nuevo por la educación y la intuición detrás de las cosas. He visto demasiados tutoriales de nivel de receta y personas que hacen cosas sin saber por qué. CV es un gran lugar para aprender.
Haitao Du
1

Si queremos que el tiempo sea estrictamente positivo, ¿por qué no hacer una distribución normal con una media más alta y una varianza muy pequeña (casi no habrá posibilidad de obtener un número negativo)?

Porque

  1. que todavía tiene una probabilidad distinta de cero de ser negativa, por lo que no es estrictamente positiva;

  2. la media y la varianza son algo que puede medir a partir de la población que está tratando de modelar. Si su población tiene media 2 y varianza 1, y la modela con una distribución normal, esa distribución normal tendrá una masa sustancial por debajo de cero; Si lo modela con una distribución normal con media 5 y varianza 0.1, su modelo obviamente tiene propiedades muy diferentes a lo que se supone que debe modelar.

La distribución normal tiene una forma particular, y esa forma es simétrica respecto a la media. La única forma de ajustar la forma es moverla hacia la derecha y hacia la izquierda (aumentar o disminuir la media) o hacerla más o menos extendida (aumentar o disminuir la varianza). Esto significa que la única forma de obtener una distribución normal donde la mayor parte de la masa está entre dos y diez y solo una pequeña cantidad de la masa está por debajo de cero, debe poner su media en, digamos, seis (la mitad del rango ) y establezca la varianza lo suficientemente pequeña como para que solo una pequeña fracción de las muestras sean negativas. Pero probablemente descubra que la mayoría de sus muestras son 5, 6 o 7, mientras que se suponía que tenía un buen número de 2, 3, 4, 8, 9 y 10.

David Richerby
fuente