Métodos estadísticos para datos donde solo se conoce un valor mínimo / máximo

29

¿Existe una rama de estadísticas que trate con datos para los cuales no se conocen valores exactos , pero para cada individuo, conocemos un límite máximo o mínimo al valor ?

Sospecho que mi problema se debe en gran parte al hecho de que estoy luchando por articularlo en términos estadísticos, pero espero que un ejemplo ayude a aclarar:

Digamos que hay dos poblaciones conectadas y tal manera que, en algún momento, los miembros de pueden "hacer la transición" a , pero no es posible lo contrario. El momento de la transición es variable, pero no aleatorio. Por ejemplo, podría ser "individuos sin descendencia" y "individuos con al menos una descendencia". Estoy interesado en la edad en que ocurre esta progresión, pero solo tengo datos transversales. Para cualquier individuo dado, puedo averiguar si pertenecen a o . También sé la edad de estas personas. Para cada individuo en la población AB B AABABABABA, Sé que la edad en la transición será MAYOR QUE su edad actual. Del mismo modo, para los miembros de B , sé que la edad en la transición era MENOR QUE su edad actual. Pero no sé los valores exactos.

Digamos que tengo otro factor que quiero comparar con la edad de transición. Por ejemplo, quiero saber si la subespecie o el tamaño del cuerpo de un individuo afecta la edad de la primera descendencia. Definitivamente tengo información útil que debería informar esas preguntas: en promedio, de las personas en A , las personas mayores tendrán una transición posterior. Pero la información es imperfecta , particularmente para individuos más jóvenes. Y viceversa para la población B .

¿Existen métodos establecidos para tratar este tipo de datos ? ¡No necesito necesariamente un método completo de cómo llevar a cabo dicho análisis, solo algunos términos de búsqueda o recursos útiles para comenzar en el lugar correcto!

Advertencias: estoy asumiendo que la transición de A a B es instantánea. También estoy preparado para asumir que la mayoría de las personas en algún momento progresarán a B , suponiendo que vivan lo suficiente. Y me doy cuenta de que los datos longitutinales serían muy útiles, pero supongo que en este caso no están disponibles.

Disculpas si esto es un duplicado, como dije, parte de mi problema es que no sé qué debería estar buscando. Por el mismo motivo, agregue otras etiquetas si corresponde.

Conjunto de datos de la muestra: Ssp indica una de dos subespecies, o . La descendencia indica que no hay descendencia ( ) o al menos una descendencia ( )Y A BXYAB

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

Editar: el conjunto de datos de ejemplo cambió ya que no era muy representativo

usuario2390246
fuente
2
Esta es una situación interesante. ¿Puedes proporcionar tus datos?
gung - Restablece a Monica
1
No podría publicar el conjunto de datos completo, pero podría dar un conjunto de ejemplos.
user2390246

Respuestas:

26

Esto se conoce como datos de estado actual . Obtiene una vista transversal de los datos, y con respecto a la respuesta, todo lo que sabe es que a la edad observada de cada sujeto, el evento (en su caso: transición de A a B) ha sucedido o no. Este es un caso especial de censura por intervalos .

Para definirlo formalmente, deje que sea ​​el tiempo de evento verdadero (no observado) para el sujeto . Deje el tiempo de inspección para el sujeto (en su caso: edad en la inspección). Si , los datos están correctamente censurados . De lo contrario, los datos quedan censurados . Estamos interesados en el modelado de la distribución de . Para los modelos de regresión, estamos interesados en el modelado de la forma en que la distribución cambia con un conjunto de covariables . i C i i C i < T i T XTiiCiiCi<TiTX

Para analizar esto utilizando métodos de censura de intervalos, desea poner sus datos en el formato general de censura de intervalos. Es decir, para cada sujeto, tenemos el intervalo , que representa el intervalo en el que sabemos que está contenido. Entonces, si el sujeto está censurado en el momento de la inspección , escribiríamos . Si se deja censurado en , lo representaríamos como .T i i c i ( c i , ) c i ( 0 , c i )(li,ri)Tiici(ci,)ci(0,ci)

Plug desvergonzado: si desea utilizar modelos de regresión para analizar sus datos, esto puede hacerse en R usando icenReg (soy el autor). De hecho, en una pregunta similar sobre los datos del estado actual , el OP presentó una buena demostración del uso de icenReg . Comienza mostrando que ignorar la parte de censura y usar la regresión logística conduce a un sesgo (nota importante: se está refiriendo al uso de la regresión logística sin ajustar por edad . Más sobre esto más adelante).

Otro gran paquete es interval, que contiene pruebas estadísticas de rango de registro, entre otras herramientas.

EDITAR:

@EdM sugirió usar la regresión logística para responder al problema. Desprecié injustamente esto, diciendo que tendría que preocuparse por la forma funcional del tiempo. Si bien respaldo la afirmación de que debe preocuparse por la forma funcional del tiempo, me di cuenta de que había una transformación muy razonable que conduce a un estimador paramétrico razonable.

En particular, si usamos log (tiempo) como una covariable en nuestro modelo con regresión logística, terminamos con un modelo de probabilidades proporcionales con una línea base log-logística.

Para ver esto, primero considere que el modelo de regresión de probabilidades proporcionales se define como

Odds(t|X,β)=eXTβOddso(t)

donde es la probabilidad de supervivencia en el tiempo . Tenga en cuenta que los efectos de regresión son los mismos que con la regresión logística. Entonces, todo lo que tenemos que hacer ahora es mostrar que la distribución de línea de base es log-logística.tOddso(t)t

Ahora considere una regresión logística con log (Time) como una covariable. Entonces tenemos

P(Y=1|T=t)=exp(β0+β1log(t))1+exp(β0+β1log(t))

Con un poco de trabajo, puede ver esto como el CDF de un modelo log-logístico (con una transformación no lineal de los parámetros).

R demostración de que los ajustes son equivalentes:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

Tenga en cuenta que el efecto de grpes el mismo en cada modelo, y la probabilidad de registro final difiere solo por error numérico. Los parámetros de línea de base (es decir, intercepción y log_age para regresión logística, alfa y beta para el modelo censurado por intervalo) son parametrizaciones diferentes, por lo que no son iguales.

Así que ahí lo tiene: el uso de la regresión logística es equivalente a ajustar las probabilidades proporcionales con una distribución de base logística logística. Si está de acuerdo con ajustar este modelo paramétrico, la regresión logística es bastante razonable. Advierto que con los datos censurados por intervalos, los modelos semi-paramétricos suelen verse favorecidos debido a la dificultad de evaluar el ajuste del modelo, pero si realmente pensara que no había lugar para modelos completamente paramétricos, no los habría incluido icenReg.

Acantilado
fuente
Esto se ve muy útil. Echaré un vistazo a los recursos que señalas y jugaré con el paquete icenReg. Estoy tratando de entender por qué la regresión logística es menos adecuada: la sugerencia de @EdM se ve en la superficie como si debería funcionar. ¿El sesgo surge porque el "evento", aquí, tener descendencia, podría tener un efecto en la supervivencia? Entonces, si disminuye la supervivencia, ¿encontraríamos que entre los individuos de una edad determinada, aquellos que no se han reproducido estarán sobrerrepresentados?
user2390246
1
@ user2390246: podría utilizar la regresión logística para los datos de estado actual. Pero luego tiene que hacer mucho trabajo para obtener la forma funcional de la edad, y su interacción con otras variables, correcta. Esto es muy no trivial. Con los modelos basados ​​en supervivencia, puede usar una línea de base semiparamétrica ( ic_spin icenReg) y no preocuparse en absoluto por eso. Además, observar las curvas de supervivencia de los dos grupos responde a su pregunta correctamente. Intentar recrear esto desde el ajuste logístico podría hacerse, pero nuevamente, mucho más trabajo que usar modelos de supervivencia.
Cliff AB
Estoy de acuerdo con @CliffAB en esto. Tenía mis dudas sobre recomendar la regresión logística específicamente debido a la dificultad de obtener la forma funcional adecuada para la dependencia de la edad. No he tenido ninguna experiencia con el análisis de datos de estado actual; no tener que descubrir esa forma de dependencia de la edad es una gran ventaja de esa técnica. Sin embargo, mantendré mi respuesta para que aquellos que luego examinen este hilo entiendan cómo se desarrolló.
EdM
Me parece que su comentario aquí es el quid de la cuestión. Sería útil si pudieras desarrollar eso en tu respuesta. Por ejemplo, si pudiera usar los datos de ejemplo del OP para construir un modelo LR y un modelo de supervivencia censurado por intervalo, y mostrar cómo este último responde más fácilmente a la pregunta de investigación del OP.
gung - Restablece a Monica
1
@gung: en realidad, he tomado una postura más suave sobre la regresión logística. Edité mi respuesta para reflejar esto.
Cliff AB
4

Este es un caso de censura / datos groseros. Suponga que cree que sus datos surgen de una distribución con buen comportamiento continuo (etc.) pdf y cdf . La solución estándar para los datos de tiempo hasta el evento cuando se conoce el tiempo exacto de un evento para el sujeto es que la contribución de probabilidad es . Si solo sabemos que el tiempo fue mayor que (censura a la derecha), entonces la contribución de probabilidad es bajo el supuesto de censura independiente. Si sabemos que el tiempo es menor que (censura a la izquierda), entonces la contribución de probabilidad esF ( x ) x i i f ( x i ) y i 1 - F ( y i ) z i F ( z i ) ( y i , z i ] F ( z i ) - F ( y i )f(x)F(x)xiif(xi)yi1F(yi)ziF(zi). Finalmente, si el tiempo cae en algún intervalo , entonces la contribución de probabilidad sería .(yi,zi]F(zi)F(yi)

Björn
fuente
1
No hay necesidad de que sea ​​continua. O incluso bien portado. Podría ser un modelo de supervivencia discreto (por lo que el pdf no está definido y se usa un pmf en su lugar) y el resto de lo que dijo sería correcto, con un ligero ajuste (reemplace con .F ( y i ) F ( y i + )f(x)F(yi)F(yi+)
Cliff AB
4

Parece que este problema podría manejarse bien mediante regresión logística.

Tiene dos estados, A y B, y desea examinar la probabilidad de que un individuo en particular haya cambiado irreversiblemente del estado A al estado B. Una variable predictiva fundamental sería la edad en el momento de la observación. El otro factor o factores de interés serían variables predictoras adicionales.

Su modelo logístico usaría las observaciones reales del estado A / B, la edad y otros factores para estimar la probabilidad de estar en el estado B en función de esos predictores. La edad a la que esa probabilidad pasa 0.5 podría usarse como la estimación del tiempo de transición, y luego examinaría las influencias de los otros factores en ese tiempo de transición predicho.

Agregado en respuesta a la discusión:

Al igual que con cualquier modelo lineal, debe asegurarse de que sus predictores se transformen de manera que tengan una relación lineal con la variable de resultado, en este caso las probabilidades de registro de la probabilidad de haberse movido al estado B. Eso no es necesariamente Un problema trivial. La respuesta de @CliffAB muestra cómo se podría usar una transformación logarítmica de la variable de edad.

EdM
fuente