He leído diferentes descripciones de datos censurados:
A) Como se explica en este hilo, los datos no cuantificados por debajo o por encima de cierto umbral están censurados. Sin cuantificar significa que los datos están por encima o por debajo de cierto umbral, pero no sabemos el valor exacto. Los datos se marcan en el valor umbral bajo o alto en el modelo de regresión. Coincide con la descripción en esta presentación , que he encontrado muy clara (segunda diapositiva en la primera página). En otras palabras, está limitado a un valor mínimo, máximo o a ambos porque no conocemos el valor verdadero fuera de ese rango.
B) Un amigo me dijo que podemos aplicar un modelo de datos censurados a observaciones parcialmente desconocidas , siempre que tengamos al menos cierta información límite sobre los resultados desconocidos . Por ejemplo, queremos estimar el precio final para una combinación de subastas silenciosas y abiertas en función de algunos criterios cualitativos (tipo de bienes, país, riqueza de los licitantes, etc.). Mientras que para las subastas abiertas conocemos todos los precios finales , para las subastas silenciosas solo sabemos la primera oferta (por ejemplo, $ 1,000) pero no el precio final. Me dijeron que en este caso los datos se censuran desde arriba y se debe aplicar un modelo de regresión censurado.
C) Finalmente, existe la definición dada por Wikipedia donde falta completo, pero los predictores están disponibles. No estoy seguro de cómo este ejemplo es diferente de los datos truncados.
Entonces, ¿qué son exactamente los datos censurados?
fuente
Respuestas:
Considere los siguientes datos sobre un resultado y una covariable x :y x
Para el usuario 1, tenemos los datos completos. Para todos los demás, tenemos datos incompletos. Los usuarios 2, 3 y 4 están todos censurados: el resultado correspondiente a los valores conocidos de la covariable no se observa o no se observa exactamente (censurado por izquierda, derecha e intervalo). Algunas veces esto es un artefacto de consideraciones de privacidad en el diseño de encuestas. En otros tiempos, sucede por otras razones. Por ejemplo, no observamos ningún salario por debajo del salario mínimo o la demanda real de entradas para conciertos por encima de la capacidad de la arena.
El usuario 5 está truncado: faltan tanto el resultado como la covariable. Esto suele suceder porque solo recopilamos datos sobre personas que hicieron algo. Por ejemplo, solo encuestamos a las personas que compraron algo ( ), por lo que excluimos a cualquier persona con y = 0 junto con sus x s. Puede que ni siquiera tengamos una fila para este tipo de usuario en los datos, aunque sabemos que existen porque conocemos la regla que se utilizó para generar nuestra muestra. Otro ejemplo es el truncamiento incidental : solo observamos ofertas salariales para personas que están en la fuerza laboral, porque suponemos que la oferta salarial es el salario cuando usted está trabajando. El truncamiento es incidental, ya que no depende de yy>0 y=0 x y , pero en otra variable.
En resumen, el truncamiento implica una mayor pérdida de información que la censura (puntos A y B). Ambos tipos de "falta" son sistemáticos.
Trabajar con este tipo de datos generalmente implica hacer una fuerte suposición de distribución sobre el error y modificar la probabilidad de tener esto en cuenta. También son posibles enfoques semiparamétricos más flexibles. Esto está implícito en su punto B.
fuente
En términos descriptivos, ofrecería "una muestra de datos censurada si algunas observaciones en ella toman o constituyen los valores extremos de la muestra pero su verdadero valor está fuera del rango de la muestra observada". Pero esto es engañosamente sencillo.
Entonces, primero analicemos cómo podemos concluir que un conjunto de datos está censurado, lo que naturalmente nos llevará a discutir los casos presentados en la pregunta.
Supongamos que se nos da el siguiente conjunto de datos de una variable aleatoria discreta , por lo que lo único que sabemos es que no es negativo:X
¿Podemos decir que el conjunto de datos está censurado? Bueno, tenemos derecho a pensar que podría ser, pero no necesariamente es así:
1) puede tener el rango { 0 , 1 , 2 } y una distribución de probabilidad { 0.1 , 0.1 , 0.8 } . Si este es realmente el caso, parece que no hay censura aquí, solo una muestra "anticipada" de una variable tan aleatoria, con soporte limitado y distribución altamente asimétrica.X {0,1,2} {0.1,0.1,0.8}
2) Sin embargo, puede ser el caso que tiene el rango { 0 , 1 , . . . , 9 } con distribución de probabilidad uniforme { 0,1 , 0,1 , . . .0 .1 } , en cuyo caso nuestra muestra de datos probablemente esté censurada.X {0,1,...,9} {0.1,0.1,...0.1}
¿Cómo podemos saberlo? No podemos, excepto si poseemos conocimiento o información previa , que nos permita argumentar a favor de uno u otro caso. ¿Los tres casos presentados en la pregunta representan conocimiento previo al efecto de la censura? Veamos:
El caso A) describe una situación en la que para algunas observaciones solo tenemos información cualitativa como "muy grande", "muy pequeña", etc., lo que nos lleva a asignar a la observación un valor extremo. Tenga en cuenta que el simple hecho de no conocer el valor real realizado no justifica la asignación de un valor extremo. Por lo tanto, debemos tener alguna información en el sentido de que para estas observaciones, su valor exceda o esté por debajo de todos los observados. En este caso, se desconoce el rango real de la variable aleatoria, pero nuestra información cualitativa nos permite crear una muestra censurada (es otra discusión sobre por qué no solo descartamos las observaciones para las cuales no poseemos el valor real realizado )
El caso B) no es un caso de censura, si lo entiendo correctamente, sino un caso de muestra contaminada: nuestra información a priori nos dice que el valor máximo de la variable aleatoria no puede exceder (debido a una ley física o un ley social: supongamos que se trata de datos de calificaciones de un sistema de calificación que usa solo los valores 1 , 2 , 3 ). Pero también hemos observado el valor 4 y el valor 5 . ¿Cómo puede ser esto? Error en la grabación de los datos. Pero en tal caso, no sabemos con certeza que los 4 y 5 deberían ser los 33 1,2,3 4 5 4 5 3 's (de hecho, mirando el teclado lateral de una computadora, ¡es más probable que los sean 1 y los 5 sean 2 !). Al "corregir" de cualquier forma la muestra, no la convertimos en censurada, porque la variable aleatoria no se supone que se encuentre en el rango registrado en primer lugar (por lo que no hay probabilidades verdaderas asignadas a los valores 4 y 5 ) 4 1 5 2 4 5
El caso C) se refiere a una muestra conjunta, donde tenemos una variable dependiente y predictores. Aquí, podemos tener una muestra donde los valores de la variable dependiente se concentran en uno o ambos extremos, debido a la estructura del fenómeno en estudio: en el ejemplo habitual de "horas trabajadas", las personas desempleadas no trabajan pero tendrían funcionó (piense detenidamente: ¿este caso realmente cae dentro de la "definición" descriptiva al comienzo de esta respuesta?). Por lo tanto, incluirlos en la regresión con las horas registradas "cero" crea un sesgo. En el otro extremo, se puede argumentar que el número máximo de horas trabajadas puede alcanzar, digamos16 / día, y puede haber empleados que estén dispuestos a trabajar tantos por un salario determinado. Pero el marco legal no lo permite y, por lo tanto, no observamos tales "horas trabajadas". Aquí, estamos tratando de estimar la " función de oferta de trabajo prevista ", y es con respecto a esta variable que la muestra se caracteriza como censurada.
Pero si declaramos que lo que queremos hacer es estimar "la función de la oferta de trabajo dado el fenómeno del desempleo y el marco legal", la muestra no sería censurada, ya que reflejaría el efecto de estos dos aspectos, algo que queremos que hacer
Entonces, vemos que caracterizar una muestra de datos como censurada
a) puede provenir de diferentes situaciones
yb) requiere un poco de cuidado,
solo el hecho de que puede confundirse con el caso del truncamiento .
fuente
Para mí, censurar significa que observamos información parcial sobre una observación . Lo que quiero decir con esto es que, en lugar de observar Z i = z i , observamos Z i ∈ a i donde a i es la realización de A i , que es un engrosamiento aleatorio del espacio muestral. Podríamos imaginar que primero seleccionamos una partición A i del espacio muestral Z , luego se genera Z i , y reportamos A i ∈ A i tal queZi Zi=zi Zi∈ai ai Ai Ai Z Zi Ai∈Ai (de manera equivalente, informamos I ( Z i ∈ A ) para todos los A ∈ A i ). La censura no informativa de Z i , por ejemplo, significa que A i es independiente de Z i .Zi∈Ai I(Zi∈A) A∈Ai Zi Ai Zi
Esto es un poco heurístico y descuidado. Probablemente también deberíamos exigir que la distribución de no sea degenerada para considerar Z i censurada. También podríamos notar que, como se definió, esta es una generalización de los datos faltantes donde para Z i = ( X i , Y i ) se podría decir Y i falta si a i = { x } × Y donde Y[Zi∣Zi∈ai] Zi Zi=(Xi,Yi) Yi ai={x}×Y Y es el espacio muestral de y decir Z i no se encuentra si un i = Z . Cuando uno dice " Z i está censurado", si siguen mi definición, lo que generalmente significan es " Z i está censurado, pero no falta".Y Zi ai=Z Zi Zi
fuente
Es importante distinguir censurado frente truncado , así como que faltan datos.
La censura se aplica específicamente al tema del análisis de supervivencia y los resultados del tiempo hasta el evento en el que se supone que el evento en cuestión ocurrió en algún momento más allá del punto en el que dejaste de observar a ese individuo . Un ejemplo es el de hombres que tienen sexo con hombres (MSM) y el riesgo de un incidente de VIH en un estudio prospectivo que se muda y deja de contactar a los coordinadores del estudio.
El truncamiento se aplica a una variable continua que se evalúa en un punto específico en el que se sabe que el valor real es mayor o menor que ese punto. Un ejemplo es el monitoreo de sujetos con VIH y el desarrollo de SIDA completo, los recuentos de células CD4 que caen por debajo de 300 se evalúan hasta el límite inferior de detección 300.
Por último, los datos que faltan son datos que tienen valores reales que no se observan en ningún sentido. A los datos censurados no les faltan datos del tiempo hasta el evento ni se truncan.
fuente
fuente