¿Cuál es el valor " " dado en el resumen de un modelo coxph en R

18

¿Cuál es el valor dado en el resumen de un modelo coxph en R? Por ejemplo,R2

Rsquare= 0.186   (max possible= 0.991 )

Lo incluí tontamente como un manuscrito como un valor y el revisor saltó sobre él diciendo que no estaba al tanto de un análogo del estadístico R ^ 2 de la regresión lineal clásica que se estaba desarrollando para el modelo de Cox y si había uno, por favor Proporcionar una referencia. ¡Cualquier ayuda sería genial!R2R2

danielsbrewer
fuente
1
En la mayoría de las situaciones donde el concepto de R2 se extiende más allá de la regresión lineal clásica, es la correlación al cuadrado entre los valores observados y los pronosticados bajo el modelo. ¿Podría eso ser aplicable aquí?
Macro
2
No, no está relacionado con eso.
Frank Harrell

Respuestas:

15

Usando getS3method("summary","coxph")puede ver cómo se calcula.

Las líneas de código relevantes son las siguientes:

logtest <- -2 * (cox$loglik[1] - cox$loglik[2])
rval$rsq <- c(rsq = 1 - exp(-logtest/cox$n), maxrsq = 1 - 
        exp(2 * cox$loglik[1]/cox$n))

Aquí cox$loglikestá "un vector de longitud 2 que contiene la probabilidad logarítmica con los valores iniciales y con los valores finales de los coeficientes" (ver ?coxph.object) y cox$nes "número de observaciones utilizadas en el ajuste".

Roland
fuente
55
Si no me equivoco, ese es el pseudo R cuadrado de Cox & Snell. Para una explicación y comparación de varios pseudo R-cuadrados, ver ats.ucla.edu/stat/mult_pkg/faq/general/psuedo_rsquareds.htm .
parada el
4

Dividir entre el número de observaciones en el resumen de es incorrecto, debería ser el número de eventos sin censura; ver O'Quigley et al. (2005) Explicación de la aleatoriedad en los modelos de riesgos proporcionales Estadísticas en medicina p. 479-489.nortecoxph

Ronghui Xu
fuente
44
Incorrecto, se divide por el número de observaciones, no importa cuán extraño suene. A la pregunta original, es extraño que un revisor no se dé cuenta de algo que ha existido durante 20 años para el modelo Cox.
Frank Harrell
Además del intercambio entre Ronghui Xu y @Frank Harrell, no solo `` suena extraño '' dividido por el número de observaciones, sino que no funciona. Para ver esto, considere beta fijado en algún valor de modo que, aproximadamente, E (R2) = 0.5, y la misma distribución covariable, es decir, todo lo mismo, aparte del hecho de que el Estudio 1 tiene el doble de la tasa de censura que el Estudio 2 Aunque deberíamos estimar la misma cantidad de población, las estimaciones de R2 en el Estudio 1 serán aproximadamente la mitad de las del Estudio 2, independientemente del tamaño de la muestra. En lugar de 0.5 estaríamos alrededor de 0.25.
John, valdría la pena proporcionar una pequeña simulación R para mostrar eso. La probabilidad de registro nulo también cambia, ¿no? - posiblemente compensando el efecto que describiste. Ya sea que generalizado sea deficiente en algunos aspectos o no, es muy utilizado y hay alguna teoría que respalda su extraña configuración. R2
Frank Harrell
En respuesta al comentario de Frank, estaría de acuerdo en que esto no es sencillo y que la observación de Frank sobre la probabilidad de registro nula es correcta. Solo he visto esta cantidad como una aproximación a un estimador consistente de una cantidad de población bien definida basada en la ganancia de información. El documento al que hace referencia Ronghui Xu realiza simulaciones. Estos muestran que el impacto de la censura, aunque no está ausente, es mucho más débil cuando lo dividimos por el número de fallas en lugar del número total de observaciones.
1
¿John y Ronghui nos dirían qué medida recomienda actualmente? Estoy buscando una fracción de aleatoriedad explicada que sea muy independiente de la distribución de censura, que sea una fuerte analogía de en modelos lineales, y que tenga una contrapartida lista para la regresión logística. Finalmente leí su excelente artículo de 2005: buen trabajo. R2
Frank Harrell