Censura derecha y censura izquierda

10

Wikipedia da las siguientes definiciones:

Censura a la derecha : un punto de datos está por encima de cierto valor pero no se sabe cuánto.
Censura izquierda : un punto de datos está por debajo de un cierto valor pero no se sabe cuánto.

En estas definiciones, qué se entiende por:

  • "punto de datos"
  • "cierto valor", y
  • "Cuánto cuesta"

En general, ¿Qué es la censura derecha e izquierda?

Es la siguiente declaración verdadera:

"En la censura a la derecha, solo tenemos el límite inferior para el valor censurado".

¿Cuál sería la declaración análoga para la censura a la izquierda?

A B C
fuente
Consulte también stats.stackexchange.com/questions/197628/… para obtener más información sobre la censura.
Tim

Respuestas:

14

A medida que se usa la etiqueta de supervivencia, agregaré una respuesta que ofrece algunos ejemplos con un sabor de análisis de supervivencia.

Punto de datos

Por punto de datos, solo queremos decir alguna observación, es decir, el resultado de una o más variables. Por ejemplo, podríamos tener lo siguiente en un conjunto de datos: la persona 1 en nuestro estudio es un hombre y muere a los 58 años. Podríamos considerarlo como un punto de datos. Pero en su ejemplo está claro que el punto de datos solo consiste en el resultado de una variable, por ejemplo, 58.

Censura a la derecha

Si estamos modelando el tiempo hasta el fracaso, hay una razón obvia para censurar, a saber, que no necesariamente tenemos tiempo para esperar a que todos los sujetos fallen. Digamos que estamos probando el efecto de las vacunas infantiles. Si realizáramos un ensayo aleatorio, el último de nuestros sujetos moriría dentro de cien años o más. Esto naturalmente introduce la censura, en este caso la censura de la derecha, ya que en algún momento tendríamos que decir "no sabemos cuánto tiempo vivirá esta persona, solo sabemos que todavía está viva". La censura a la derecha también puede ocurrir si las personas en el ensayo aleatorizado se pierden durante el seguimiento, por ejemplo, pueden querer suspender su participación en el estudio o alejarse. Estos son ejemplos de censura de derechos, básicamente nosotros ' Estamos interesados ​​en la longevidad de nuestros sujetos, pero debido a circunstancias prácticas solo hemos censurado las observaciones, lo que significa que para algunos sujetos nunca sabremos cuándo mueren, solo que en algún momento (el tiempo de censura) todavía estaban vivos. Por lo tanto, sabemos que para un individuo censurado, el punto de datos (hora de la muerte) es mayor que un cierto valor (el tiempo de censura).

Censura a la izquierda

Como ejemplo de censura a la izquierda, considere lo siguiente. Digamos que alguna tropa de babuinos siempre duerme en los árboles. Queremos estimar a qué hora de la mañana descienden de los árboles, y supongamos que descienden todos los días. Los seguimos durante varios días, sin embargo, nos gusta dormir, lo que significa que algunos días descienden incluso antes de que lleguemos a la escena. Si llegamos a las 9 de la mañana del díaxy los babuinos ya descendieron, tenemos datos censurados a la izquierda. Queremos saber cuándo descendieron, pero todo lo que tenemos es un límite superior (9 am), porque sabemos que en nuestro momento de llegada ya habían descendido. De manera análoga, ahora sabemos que el punto de datos (hora de descenso en el díax) es menor que un cierto valor (9. am).

Este ejemplo está tomado de

Andersen, PK, Borgan, Ø., Gill, RD y Keiding, N. (1993), Modelos estadísticos basados ​​en procesos de conteo , Serie Springer en estadística, Springer-Verlag, Nueva York.

Este libro proporciona una definición matemática de censura y probablemente no sea el primer libro sobre análisis de supervivencia que uno debería obtener. Sin embargo, también tiene algunos ejemplos intuitivos, como los anteriores.

swmo
fuente
Pero, digamos, un babuino aún no ha descendido cuando llegamos al lugar (9 am, cierto valor). Entonces comenzamos a observar cuándo descenderá. Entonces, ¿no tenemos el punto de datos (tiempo de descenso) por encima de cierto valor (9 am)? Pero aún así son datos censurados por la izquierda. ¿Wikipedia brindó la definición de manera más general?
ABC
1
Asumí que toda la tropa descendería al mismo tiempo, todos juntos. Pero no hace mucha diferencia. Si llegamos después del descenso, solo conocemos un límite superior en el tiempo de descenso (es decir, nuestra hora de llegada), por lo tanto, este punto de datos (hora de descenso en el día específico) se censura a la izquierda. Si llegamos antes del descenso, ese punto de datos no será censurado (a menos que nos cansemos de esperar y nos vayamos antes del descenso, en ese caso tenemos datos censurados correctamente, suponiendo que desciendan todos los días).
swmo
Otro ejemplo de datos censurados correctos son los datos de intervalo de tiempo donde no sabemos si están comenzando. Esto a menudo se malinterpreta como datos censurados por la derecha (hay varios ejemplos en foros y listas de correo con esta idea errónea).
drevicko
4

Supongamos que tengo un bar donde toco bandas. El bar es bastante pequeño, por lo que solo 150 personas pueden ver un espectáculo a la vez (esta es la clave). Vendo entradas para los espectáculos, por lo que mis datos contables se verían así:

date     band               price   tickets_sold
10/01/14 Texas Instruments  $20     2
10/02/14 Unkind Donuts      $30     150
...
03/02/15 The Capybaras      $15     120

Un punto de datos es solo una fila en esta tabla.

Supongamos que la variable que quiero considerar es la demanda de boletos. La demanda del primer espectáculo no está censurada. Solo dos personas querían ver Texas Instruments a $ 20 y 148 boletos no se vendieron. Sé exactamente la demanda en $ 20: los 2 boletos que se vendieron.

Sin embargo, la variable de demanda se censuró en la segunda fila porque el espectáculo se agotó. Sé que al menos 150 personas querían ver Unkind Donuts a $ 30 por boleto, pero desconozco cuántas personas que fueron rechazadas sin un boleto, por lo que no sé exactamente la demanda. Todo lo que sé es el límite inferior de 150.

Ahora supongamos que quisiera medir la asistencia al tercer espectáculo. Podríamos contar personas en la puerta, pero por el bien de este ejemplo, supongamos que mi portero es malo en aritmética. Sabemos que algunas personas comprarán boletos y luego no vendrán. Esto significa que la asistencia es como máximo 120 ya que esa es la cantidad de boletos vendidos. Ese es el límite superior de asistencia para The Capybaras, que está censurado a la izquierda.

Dimitriy V. Masterov
fuente
1

Un error común con la censura a la izquierda es la clasificación de un punto de datos de intervalo de tiempo donde no sabes que está comenzando. Muchos piensan que esto se deja censurado, pero en realidad se censura correctamente, ya que tenemos un límite inferior en la duración del intervalo.

Un ejemplo concreto podría ser la información clínica sobre la duración de la "foopox", generalmente una enfermedad no terminal, y estamos interesados ​​en el tiempo que le toma a la gente recuperarse. Los síntomas de la viruela son fáciles de observar (por ejemplo: sus dientes se ponen verdes). La mayoría de las personas en nuestro estudio saben exactamente cuándo comenzó y cuándo terminó.

El ejemplo clásico de datos censurados correctos en este tipo de estudio son los sujetos que todavía tenían fox-pox al final del estudio o todavía tenían foo-pox cuando desaparecieron ("perdidos durante el seguimiento") durante el estudio (supongamos que saber la fecha de inicio de la enfermedad para estas personas). Para estas personas tenemos un límite inferior en la duración, por lo tanto, sus datos están correctamente censurados . Esto es intuitivamente "censurado correctamente" ya que no conocemos el final derecho del período de tiempo.

El problema es cuando no sabemos la fecha de inicio del período de tiempo (personas que viven solas y no tienen espejo, así que no sabemos cuándo sus dientes se pusieron verdes). ¿Están censurados estos derechos? Muchos piensan erróneamente que se desconoce el extremo izquierdo del período de tiempo, por lo tanto, se deja censurado. Este es un resultado desafortunado de la terminología, que creo que se desarrolló en ausencia de este tipo de censura. Para estas personas, tenemos un límite más bajo en el período de tiempo (sabemos que tenían viruela al menos desde que su vecino mencionó sus dientes verdes hasta que mejoraron o el estudio terminó y todavía estaban enfermos), por lo tanto, sus datos son derecho censurado .

drevicko
fuente
2
Creo que tu respuesta es un poco confusa. Al principio, hablas de censurar un intervalo de tiempo, luego de censurar un período de tiempo (un solo número). En el último párrafo, también podría indicar que los datos son intervalos desde el momento del inicio de la viruela hasta la muerte. En ese caso, habría intervalos censurados a la izquierda en su ejemplo, ya que no necesariamente conoce la hora exacta de inicio, solo un límite superior. Igualmente bien, podría (como lo hace) observar la duración de la viruela, en cuyo caso podría obtener un límite inferior en la duración, por lo tanto, tener la censura correcta.
swmo
¿Cómo codificaría esto en los datos, por ejemplo, en un objeto R Surv? ¿El evento de un registro censurado a la derecha a la izquierda sería "remisión" u "ocurrencia del evento", mientras que el evento de un registro censurado a la derecha a la derecha sería "censurado a la derecha / sin ocurrencia / sin remisión"? Además, parece que las tasas de riesgo deben ser diferentes entre los dos tipos de eventos truncados a la derecha, ya que estos deberían modelarse como una función desde el inicio de la enfermedad. ¿Qué tipo de modelo manejaría esto?
Allen Wang
@AllenWang Miedo No estoy demasiado familiarizado con los objetos R Surv, pero espero que su terminología sea coherente, por lo que si tiene cuidado de comprenderla y seguirla, debería estar bien. En cuanto a las tasas de riesgo, no hay diferencia, en ambos casos, solo tiene un límite inferior en la duración del evento.
drevicko