¿Qué son exactamente los datos censurados?

14

He leído diferentes descripciones de datos censurados:

A) Como se explica en este hilo, los datos no cuantificados por debajo o por encima de cierto umbral están censurados. Sin cuantificar significa que los datos están por encima o por debajo de cierto umbral, pero no sabemos el valor exacto. Los datos se marcan en el valor umbral bajo o alto en el modelo de regresión. Coincide con la descripción en esta presentación , que he encontrado muy clara (segunda diapositiva en la primera página). En otras palabras, está limitado a un valor mínimo, máximo o a ambos porque no conocemos el valor verdadero fuera de ese rango.Y

B) Un amigo me dijo que podemos aplicar un modelo de datos censurados a observaciones parcialmente desconocidas , siempre que tengamos al menos cierta información límite sobre los resultados desconocidos . Por ejemplo, queremos estimar el precio final para una combinación de subastas silenciosas y abiertas en función de algunos criterios cualitativos (tipo de bienes, país, riqueza de los licitantes, etc.). Mientras que para las subastas abiertas conocemos todos los precios finales , para las subastas silenciosas solo sabemos la primera oferta (por ejemplo, $ 1,000) pero no el precio final. Me dijeron que en este caso los datos se censuran desde arriba y se debe aplicar un modelo de regresión censurado.YYyoYyo

C) Finalmente, existe la definición dada por Wikipedia donde falta completo, pero los predictores están disponibles. No estoy seguro de cómo este ejemplo es diferente de los datos truncados.Y

Entonces, ¿qué son exactamente los datos censurados?

Robert Kubrick
fuente
66
El artículo más relevante de Wikipedia está en en.wikipedia.org/wiki/Censoring_%28statistics%29 . Aunque no es exhaustivo, al menos describe la censura de Tipo I y Tipo II y reconoce la censura de intervalo junto con la censura izquierda y derecha.
whuber

Respuestas:

8

Considere los siguientes datos sobre un resultado y una covariable x :yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Para el usuario 1, tenemos los datos completos. Para todos los demás, tenemos datos incompletos. Los usuarios 2, 3 y 4 están todos censurados: el resultado correspondiente a los valores conocidos de la covariable no se observa o no se observa exactamente (censurado por izquierda, derecha e intervalo). Algunas veces esto es un artefacto de consideraciones de privacidad en el diseño de encuestas. En otros tiempos, sucede por otras razones. Por ejemplo, no observamos ningún salario por debajo del salario mínimo o la demanda real de entradas para conciertos por encima de la capacidad de la arena.

El usuario 5 está truncado: faltan tanto el resultado como la covariable. Esto suele suceder porque solo recopilamos datos sobre personas que hicieron algo. Por ejemplo, solo encuestamos a las personas que compraron algo ( ), por lo que excluimos a cualquier persona con y = 0 junto con sus x s. Puede que ni siquiera tengamos una fila para este tipo de usuario en los datos, aunque sabemos que existen porque conocemos la regla que se utilizó para generar nuestra muestra. Otro ejemplo es el truncamiento incidental : solo observamos ofertas salariales para personas que están en la fuerza laboral, porque suponemos que la oferta salarial es el salario cuando usted está trabajando. El truncamiento es incidental, ya que no depende de yy>0y=0xy, pero en otra variable.

En resumen, el truncamiento implica una mayor pérdida de información que la censura (puntos A y B). Ambos tipos de "falta" son sistemáticos.

Trabajar con este tipo de datos generalmente implica hacer una fuerte suposición de distribución sobre el error y modificar la probabilidad de tener esto en cuenta. También son posibles enfoques semiparamétricos más flexibles. Esto está implícito en su punto B.

Dimitriy V. Masterov
fuente
2
Dos aspectos de esta respuesta me confunden. Primero, los valores puramente perdidos no reflejan necesariamente el truncamiento. En segundo lugar, la forma de censurar ("aleatoria" versus "informativa") es a menudo tan importante como el hecho de censurar, lo que indica que hay más en la censura que el simple registro de datos con valores de intervalo.
whuber
Este es un muy buen ejemplo. ¿Significa que se pueden aplicar diferentes "límites de censura" a cada ? ¿Cómo formulamos el modelo en este caso? Esto validaría mi declaración de amigo en B). y
Robert Kubrick
1
Si usted está dispuesto a asumir homocedásticos, errores distribuidos normalmente, la probabilidad se pueden escribir como este y se puede utilizar con umbrales de censura MLE-observación específica.
Dimitriy V. Masterov
3
@ Peter ¿No es eso (correcto) censurar? El truncamiento ocurriría cuando todas esas personas están excluidas y no se cuentan en la muestra. Ver en.wikipedia.org/wiki/Truncation_(statistics) .
whuber
1
@Peter Lo que es confuso es que escribe "entonces sabemos que el IMC de esa persona es superior a 30": ¿cómo puede referirse a alguien que ni siquiera está en su muestra ("no se contó")? Una observación de la forma "IMC> 30" está censurando mientras que la exclusión completa de todas esas observaciones de su análisis, incluso cuando puedan existir en la población, es truncamiento. En el último caso, todo lo que puede decir es que "las personas con un IMC superior a 30 han sido excluidas de la muestra".
whuber
9

En términos descriptivos, ofrecería "una muestra de datos censurada si algunas observaciones en ella toman o constituyen los valores extremos de la muestra pero su verdadero valor está fuera del rango de la muestra observada". Pero esto es engañosamente sencillo.

Entonces, primero analicemos cómo podemos concluir que un conjunto de datos está censurado, lo que naturalmente nos llevará a discutir los casos presentados en la pregunta.

Supongamos que se nos da el siguiente conjunto de datos de una variable aleatoria discreta , por lo que lo único que sabemos es que no es negativo:X

{0,1,1,2,2,2,2,2,2,2}

¿Podemos decir que el conjunto de datos está censurado? Bueno, tenemos derecho a pensar que podría ser, pero no necesariamente es así:

1) puede tener el rango { 0 , 1 , 2 } y una distribución de probabilidad { 0.1 , 0.1 , 0.8 } . Si este es realmente el caso, parece que no hay censura aquí, solo una muestra "anticipada" de una variable tan aleatoria, con soporte limitado y distribución altamente asimétrica. X{0,1,2}{0.1,0.1,0.8}

2) Sin embargo, puede ser el caso que tiene el rango { 0 , 1 , . . . , 9 } con distribución de probabilidad uniforme { 0,1 , 0,1 , . . .0 .1 } , en cuyo caso nuestra muestra de datos probablemente esté censurada. X{0,1,...,9}{0.1,0.1,...0.1}

¿Cómo podemos saberlo? No podemos, excepto si poseemos conocimiento o información previa , que nos permita argumentar a favor de uno u otro caso. ¿Los tres casos presentados en la pregunta representan conocimiento previo al efecto de la censura? Veamos:

El caso A) describe una situación en la que para algunas observaciones solo tenemos información cualitativa como "muy grande", "muy pequeña", etc., lo que nos lleva a asignar a la observación un valor extremo. Tenga en cuenta que el simple hecho de no conocer el valor real realizado no justifica la asignación de un valor extremo. Por lo tanto, debemos tener alguna información en el sentido de que para estas observaciones, su valor exceda o esté por debajo de todos los observados. En este caso, se desconoce el rango real de la variable aleatoria, pero nuestra información cualitativa nos permite crear una muestra censurada (es otra discusión sobre por qué no solo descartamos las observaciones para las cuales no poseemos el valor real realizado )

El caso B) no es un caso de censura, si lo entiendo correctamente, sino un caso de muestra contaminada: nuestra información a priori nos dice que el valor máximo de la variable aleatoria no puede exceder (debido a una ley física o un ley social: supongamos que se trata de datos de calificaciones de un sistema de calificación que usa solo los valores 1 , 2 , 3 ). Pero también hemos observado el valor 4 y el valor 5 . ¿Cómo puede ser esto? Error en la grabación de los datos. Pero en tal caso, no sabemos con certeza que los 4 y 5 deberían ser los 331,2,345453's (de hecho, mirando el teclado lateral de una computadora, ¡es más probable que los sean 1 y los 5 sean 2 !). Al "corregir" de cualquier forma la muestra, no la convertimos en censurada, porque la variable aleatoria no se supone que se encuentre en el rango registrado en primer lugar (por lo que no hay probabilidades verdaderas asignadas a los valores 4 y 5 ) 415245

El caso C) se refiere a una muestra conjunta, donde tenemos una variable dependiente y predictores. Aquí, podemos tener una muestra donde los valores de la variable dependiente se concentran en uno o ambos extremos, debido a la estructura del fenómeno en estudio: en el ejemplo habitual de "horas trabajadas", las personas desempleadas no trabajan pero tendrían funcionó (piense detenidamente: ¿este caso realmente cae dentro de la "definición" descriptiva al comienzo de esta respuesta?). Por lo tanto, incluirlos en la regresión con las horas registradas "cero" crea un sesgo. En el otro extremo, se puede argumentar que el número máximo de horas trabajadas puede alcanzar, digamos 16/ día, y puede haber empleados que estén dispuestos a trabajar tantos por un salario determinado. Pero el marco legal no lo permite y, por lo tanto, no observamos tales "horas trabajadas". Aquí, estamos tratando de estimar la " función de oferta de trabajo prevista ", y es con respecto a esta variable que la muestra se caracteriza como censurada.
Pero si declaramos que lo que queremos hacer es estimar "la función de la oferta de trabajo dado el fenómeno del desempleo y el marco legal", la muestra no sería censurada, ya que reflejaría el efecto de estos dos aspectos, algo que queremos que hacer

Entonces, vemos que caracterizar una muestra de datos como censurada
a) puede provenir de diferentes situaciones
yb) requiere un poco de cuidado,
solo el hecho de que puede confundirse con el caso del truncamiento .

Alecos Papadopoulos
fuente
66
Esto parece ser una perspectiva econométrica. Tenga en cuenta que es común en la investigación biomédica tener duraciones (posiblemente literalmente supervivencia) como respuesta, y que los pacientes sean censurados por no haber experimentado el evento al final del período de observación. Pero también para tener pacientes que abandonaron o se perdieron durante el seguimiento durante el período de observación. (Quizás se alejaron y se perdió el contacto). Podemos saber que el tiempo de supervivencia es> el último contacto, pero podría ser más corto que el final del período de observación.
gung - Restablecer Monica
El caso B no es para datos incorrectos o contaminados. Supongamos que queremos estimar el precio final de una combinación de subastas silenciosas y abiertas basadas en algunos criterios cualitativos (tipo de bienes, país, riqueza de los licitantes, ...). Para las subastas silenciosas solo conocemos la primera oferta (por ejemplo, $ 1,000) pero no el precio final. Me dijeron que podemos usar los datos de las subastas silenciosas usando alguna forma de modelado censurado.
Robert Kubrick
1
@gung ¡este es ciertamente un enfoque econométrico, dado quién escribió la respuesta!
Alecos Papadopoulos
1
@RobertKunrick Lo que describe no coincide con el caso B. En la forma en que se describe el caso B, observamos un rango de valores y luego nos dicen que algunos de los valores observados son en realidad imposibles. ¿Cómo coincide eso con el ejemplo de las subastas?
Alecos Papadopoulos
No lo tome como una crítica, @AlecosPapadopoulos. No creo que haya nada incorrecto. Solo quiero señalar que los términos se usan de manera diferente en diferentes campos, y esta no es la convención es stat / biostat.
gung - Restablece a Monica
2

Para mí, censurar significa que observamos información parcial sobre una observación . Lo que quiero decir con esto es que, en lugar de observar Z i = z i , observamos Z ia i donde a i es la realización de A i , que es un engrosamiento aleatorio del espacio muestral. Podríamos imaginar que primero seleccionamos una partición A i del espacio muestral Z , luego se genera Z i , y reportamos A iA i tal queZiZi=ziZiaiaiAiAiZZiAiAi (de manera equivalente, informamos I ( Z iA ) para todos los A A i ). La censura no informativa de Z i , por ejemplo, significa que A i es independiente de Z i .ZiAiI(ZiA)AAiZiAiZi

Esto es un poco heurístico y descuidado. Probablemente también deberíamos exigir que la distribución de no sea degenerada para considerar Z i censurada. También podríamos notar que, como se definió, esta es una generalización de los datos faltantes donde para Z i = ( X i , Y i ) se podría decir Y i falta si a i = { x } × Y donde Y[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYes el espacio muestral de y decir Z i no se encuentra si un i = Z . Cuando uno dice " Z i está censurado", si siguen mi definición, lo que generalmente significan es " Z i está censurado, pero no falta".YZiai=ZZiZi

chico
fuente
1

Es importante distinguir censurado frente truncado , así como que faltan datos.

La censura se aplica específicamente al tema del análisis de supervivencia y los resultados del tiempo hasta el evento en el que se supone que el evento en cuestión ocurrió en algún momento más allá del punto en el que dejaste de observar a ese individuo . Un ejemplo es el de hombres que tienen sexo con hombres (MSM) y el riesgo de un incidente de VIH en un estudio prospectivo que se muda y deja de contactar a los coordinadores del estudio.

El truncamiento se aplica a una variable continua que se evalúa en un punto específico en el que se sabe que el valor real es mayor o menor que ese punto. Un ejemplo es el monitoreo de sujetos con VIH y el desarrollo de SIDA completo, los recuentos de células CD4 que caen por debajo de 300 se evalúan hasta el límite inferior de detección 300.

Por último, los datos que faltan son datos que tienen valores reales que no se observan en ningún sentido. A los datos censurados no les faltan datos del tiempo hasta el evento ni se truncan.

AdamO
fuente
1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Restablece a Monica
1
... Los datos de su recuento celular están censurados de acuerdo con la comprensión del término por parte de muchas personas, que no se limita a las mediciones de tiempo hasta el evento, porque usted sabe todo sobre cada tema, excepto qué tan por debajo de 300 es su recuento celular; "truncamiento" aquí (alternativamente "Winsorización") describe el método de análisis, es decir, el tratamiento de valores inferiores a 300 como si fueran iguales a 300.
Scortchi - Restablece a Monica
Una referencia clara sobre el concepto de análisis de supervivencia de la censura: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .
Eric O Lebigot
-1
  1. Censurado: este es un término utilizado para indicar que el período de observación se interrumpió antes de que ocurriera el evento de interés. Entonces, los "datos censurados" indican que el período de un evento en particular no se produjo o nunca
Abdulfatah Lawal
fuente
3
Bienvenido al sitio. Si esto se copia de alguna fuente, cite la fuente.
gung - Restablece a Monica
3
La censura se aplica a mucho más que las observaciones dependientes del tiempo. Por ejemplo, las mediciones de concentraciones químicas que están por debajo del límite de detección también están censuradas.
whuber
@whuber: ¿Puedo ofrecer una enmienda amistosa a esa observación? Las concentraciones químicas que caen por debajo del límite de detección están efectivamente censuradas, pero dado que no pueden ser negativas, los análisis deberían considerarlas truncadas en cero. Mi propia comprensión de la distinción de censura de truncamiento es que el truncamiento se aplica al rango de parámetros que son posibles para la distribución subyacente.
DWin
@DWin Gracias por esa atenta aclaración. Solo puedo estar de acuerdo con el primer punto. Sin embargo, en la gran mayoría de los conjuntos de datos que he analizado, fue necesario reexpresar las concentraciones como logaritmos, y allí desaparece la distinción. En otros conjuntos de datos en los que se ha restado el fondo (como las mediciones radiológicas), tampoco hay un punto final izquierdo definido. Su segundo punto me parece inusual: nunca he visto "truncamiento" usado para referirse a la creación de un subconjunto de una familia de distribución.
whuber