¿Existe una rama de estadísticas que trate con datos para los cuales no se conocen valores exactos , pero para cada individuo, conocemos un límite máximo o mínimo al valor ?
Sospecho que mi problema se debe en gran parte al hecho de que estoy luchando por articularlo en términos estadísticos, pero espero que un ejemplo ayude a aclarar:
Digamos que hay dos poblaciones conectadas y tal manera que, en algún momento, los miembros de pueden "hacer la transición" a , pero no es posible lo contrario. El momento de la transición es variable, pero no aleatorio. Por ejemplo, podría ser "individuos sin descendencia" y "individuos con al menos una descendencia". Estoy interesado en la edad en que ocurre esta progresión, pero solo tengo datos transversales. Para cualquier individuo dado, puedo averiguar si pertenecen a o . También sé la edad de estas personas. Para cada individuo en la población AB B A, Sé que la edad en la transición será MAYOR QUE su edad actual. Del mismo modo, para los miembros de , sé que la edad en la transición era MENOR QUE su edad actual. Pero no sé los valores exactos.
Digamos que tengo otro factor que quiero comparar con la edad de transición. Por ejemplo, quiero saber si la subespecie o el tamaño del cuerpo de un individuo afecta la edad de la primera descendencia. Definitivamente tengo información útil que debería informar esas preguntas: en promedio, de las personas en , las personas mayores tendrán una transición posterior. Pero la información es imperfecta , particularmente para individuos más jóvenes. Y viceversa para la población .
¿Existen métodos establecidos para tratar este tipo de datos ? ¡No necesito necesariamente un método completo de cómo llevar a cabo dicho análisis, solo algunos términos de búsqueda o recursos útiles para comenzar en el lugar correcto!
Advertencias: estoy asumiendo que la transición de a es instantánea. También estoy preparado para asumir que la mayoría de las personas en algún momento progresarán a , suponiendo que vivan lo suficiente. Y me doy cuenta de que los datos longitutinales serían muy útiles, pero supongo que en este caso no están disponibles.
Disculpas si esto es un duplicado, como dije, parte de mi problema es que no sé qué debería estar buscando. Por el mismo motivo, agregue otras etiquetas si corresponde.
Conjunto de datos de la muestra: Ssp indica una de dos subespecies, o . La descendencia indica que no hay descendencia ( ) o al menos una descendencia ( )Y A B
age ssp offsp
21 Y A
20 Y B
26 X B
33 X B
33 X A
24 X B
34 Y B
22 Y B
10 Y B
20 Y A
44 X B
18 Y A
11 Y B
27 X A
31 X B
14 Y B
41 X B
15 Y A
33 X B
24 X B
11 Y A
28 X A
22 X B
16 Y A
16 Y B
24 Y B
20 Y B
18 X B
21 Y B
16 Y B
24 Y A
39 X B
13 Y A
10 Y B
18 Y A
16 Y A
21 X A
26 X B
11 Y A
40 X B
8 Y A
41 X B
29 X B
53 X B
34 X B
34 X B
15 Y A
40 X B
30 X A
40 X B
Editar: el conjunto de datos de ejemplo cambió ya que no era muy representativo
fuente
Respuestas:
Esto se conoce como datos de estado actual . Obtiene una vista transversal de los datos, y con respecto a la respuesta, todo lo que sabe es que a la edad observada de cada sujeto, el evento (en su caso: transición de A a B) ha sucedido o no. Este es un caso especial de censura por intervalos .
Para definirlo formalmente, deje que sea el tiempo de evento verdadero (no observado) para el sujeto . Deje el tiempo de inspección para el sujeto (en su caso: edad en la inspección). Si , los datos están correctamente censurados . De lo contrario, los datos quedan censurados . Estamos interesados en el modelado de la distribución de . Para los modelos de regresión, estamos interesados en el modelado de la forma en que la distribución cambia con un conjunto de covariables . i C i i C i < T i T XTi i Ci i Ci<Ti T X
Para analizar esto utilizando métodos de censura de intervalos, desea poner sus datos en el formato general de censura de intervalos. Es decir, para cada sujeto, tenemos el intervalo , que representa el intervalo en el que sabemos que está contenido. Entonces, si el sujeto está censurado en el momento de la inspección , escribiríamos . Si se deja censurado en , lo representaríamos como .T i i c i ( c i , ∞ ) c i ( 0 , c i )( lyo, ryo) Tyo yo doyo ( cyo, ∞ ) doyo ( 0 , cyo)
Plug desvergonzado: si desea utilizar modelos de regresión para analizar sus datos, esto puede hacerse en R usando
icenReg
(soy el autor). De hecho, en una pregunta similar sobre los datos del estado actual , el OP presentó una buena demostración del uso de icenReg . Comienza mostrando que ignorar la parte de censura y usar la regresión logística conduce a un sesgo (nota importante: se está refiriendo al uso de la regresión logística sin ajustar por edad . Más sobre esto más adelante).Otro gran paquete es
interval
, que contiene pruebas estadísticas de rango de registro, entre otras herramientas.EDITAR:
@EdM sugirió usar la regresión logística para responder al problema. Desprecié injustamente esto, diciendo que tendría que preocuparse por la forma funcional del tiempo. Si bien respaldo la afirmación de que debe preocuparse por la forma funcional del tiempo, me di cuenta de que había una transformación muy razonable que conduce a un estimador paramétrico razonable.
En particular, si usamos log (tiempo) como una covariable en nuestro modelo con regresión logística, terminamos con un modelo de probabilidades proporcionales con una línea base log-logística.
Para ver esto, primero considere que el modelo de regresión de probabilidades proporcionales se define como
donde es la probabilidad de supervivencia en el tiempo . Tenga en cuenta que los efectos de regresión son los mismos que con la regresión logística. Entonces, todo lo que tenemos que hacer ahora es mostrar que la distribución de línea de base es log-logística.tPosibilidadeso( t ) t
Ahora considere una regresión logística con log (Time) como una covariable. Entonces tenemos
Con un poco de trabajo, puede ver esto como el CDF de un modelo log-logístico (con una transformación no lineal de los parámetros).
R demostración de que los ajustes son equivalentes:
Tenga en cuenta que el efecto de
grp
es el mismo en cada modelo, y la probabilidad de registro final difiere solo por error numérico. Los parámetros de línea de base (es decir, intercepción y log_age para regresión logística, alfa y beta para el modelo censurado por intervalo) son parametrizaciones diferentes, por lo que no son iguales.Así que ahí lo tiene: el uso de la regresión logística es equivalente a ajustar las probabilidades proporcionales con una distribución de base logística logística. Si está de acuerdo con ajustar este modelo paramétrico, la regresión logística es bastante razonable. Advierto que con los datos censurados por intervalos, los modelos semi-paramétricos suelen verse favorecidos debido a la dificultad de evaluar el ajuste del modelo, pero si realmente pensara que no había lugar para modelos completamente paramétricos, no los habría incluido
icenReg
.fuente
ic_sp
inicenReg
) y no preocuparse en absoluto por eso. Además, observar las curvas de supervivencia de los dos grupos responde a su pregunta correctamente. Intentar recrear esto desde el ajuste logístico podría hacerse, pero nuevamente, mucho más trabajo que usar modelos de supervivencia.Este es un caso de censura / datos groseros. Suponga que cree que sus datos surgen de una distribución con buen comportamiento continuo (etc.) pdf y cdf . La solución estándar para los datos de tiempo hasta el evento cuando se conoce el tiempo exacto de un evento para el sujeto es que la contribución de probabilidad es . Si solo sabemos que el tiempo fue mayor que (censura a la derecha), entonces la contribución de probabilidad es bajo el supuesto de censura independiente. Si sabemos que el tiempo es menor que (censura a la izquierda), entonces la contribución de probabilidad esF ( x ) x i i f ( x i ) y i 1 - F ( y i ) z i F ( z i ) ( y i , z i ] F ( z i ) - F ( y i )F( x ) F( x ) Xyo yo F( xyo) yyo 1 - F( yyo) zyo F( zyo) . Finalmente, si el tiempo cae en algún intervalo , entonces la contribución de probabilidad sería .( yyo, zyo] F( zyo) - F( yyo)
fuente
Parece que este problema podría manejarse bien mediante regresión logística.
Tiene dos estados, A y B, y desea examinar la probabilidad de que un individuo en particular haya cambiado irreversiblemente del estado A al estado B. Una variable predictiva fundamental sería la edad en el momento de la observación. El otro factor o factores de interés serían variables predictoras adicionales.
Su modelo logístico usaría las observaciones reales del estado A / B, la edad y otros factores para estimar la probabilidad de estar en el estado B en función de esos predictores. La edad a la que esa probabilidad pasa 0.5 podría usarse como la estimación del tiempo de transición, y luego examinaría las influencias de los otros factores en ese tiempo de transición predicho.
Agregado en respuesta a la discusión:
Al igual que con cualquier modelo lineal, debe asegurarse de que sus predictores se transformen de manera que tengan una relación lineal con la variable de resultado, en este caso las probabilidades de registro de la probabilidad de haberse movido al estado B. Eso no es necesariamente Un problema trivial. La respuesta de @CliffAB muestra cómo se podría usar una transformación logarítmica de la variable de edad.
fuente