¿Cuál es la diferencia entre censurar y truncar?

30

En el libro Modelos y métodos estadísticos para datos de por vida , está escrito:

Censura: cuando una observación está incompleta debido a alguna causa aleatoria.
Truncamiento: cuando la naturaleza incompleta de la observación se debe a un proceso de selección sistemática inherente al diseño del estudio.

¿Qué se entiende por "proceso de selección sistemática inherente al diseño del estudio" en la definición de truncamiento?

¿Cuál es la diferencia entre censurar y truncar?

A B C
fuente
3
Echa un vistazo a la respuesta aquí .
Dimitriy V. Masterov
3
Censura: "Hemos tenido una observación en esa región en algún lugar, pero no sabemos qué es". Truncamiento: "¿Observación? ¿Qué observación?"
Glen_b -Reinstalar Monica
¿De dónde se citan sus definiciones?
Glen_b -Reinstalar Monica
1
@Glen_b He editado mi pregunta.
ABC

Respuestas:

57

Las definiciones varían, y los dos términos a veces se usan indistintamente. Trataré de explicar los usos más comunes utilizando el siguiente conjunto de datos:

11,2524 45 5

Censura : algunas observaciones serán censuradas, lo que significa que solo sabemos que están por debajo (o por encima) de algún límite. Esto puede ocurrir, por ejemplo, si medimos la concentración de una sustancia química en una muestra de agua. Si la concentración es demasiado baja, el equipo de laboratorio no puede detectar la presencia de la sustancia química. Sin embargo, todavía puede estar presente, por lo que solo sabemos que la concentración está por debajo del límite de detección del laboratorio.

Si el límite de detección es 1.5, de modo que las observaciones que caen por debajo de este límite están censuradas, nuestro conjunto de datos de ejemplo sería: es decir, no sabemos el valores reales de las dos primeras observaciones, pero solo que son menores que 1.5.

<1,5<1,524 45 5,

Truncamiento : el proceso que genera los datos es tal que solo es posible observar resultados por encima (o por debajo) del límite de truncamiento. Esto puede ocurrir, por ejemplo, si las mediciones se toman utilizando un detector que solo se activa si las señales que detecta están por encima de cierto límite. Puede haber muchas señales entrantes débiles, pero nunca podemos distinguir el uso de este detector.

Si el límite de truncamiento es 1.5, nuestro conjunto de datos de ejemplo se convertiría en y no sabríamos que, de hecho, había dos señales que no se registraron.

24 45 5
MånsT
fuente
Entonces, en este uso de los términos, "censurado" es engañoso si pensamos en términos de los usos no técnicos de la palabra. es decir, en este sentido estadístico, significa algo así como "vago" o "solo se sabe que se encuentran dentro de un rango", en lugar de algo como el sentido no técnico, es decir, suprimido o eliminado, como cuando un libro se retira de las tiendas porque de su contenido.
Marte
3
Para un ejemplo concreto de truncamiento, las compañías de seguros de automóviles nunca escuchan sobre accidentes donde el daño es menor que el deducible, porque las personas no se reportan allí. Esto queda truncamiento; nunca vemos datos sobre estos incidentes en absoluto. Para un ejemplo de censura correcta, cuando un paciente enfermo decide dejar de ver a su médico o se muda a una ciudad diferente, todo lo que se sabe es que estaba vivo el día que se fue, pero no sabemos cuándo murió. .
David White el
@Mars: Estoy de acuerdo en que suena al revés del uso no técnico moderno donde "censurar" está eliminando todo rastro y "truncar" está eliminando detalles. Pero en las estadísticas, "censurar" se usa en el sentido no técnico más antiguo, donde un censor podría eliminar pero no eliminar ningún rastro de algo: cuadros negros o desenfoques colocados sobre partes ofensivas de una foto o video, pitidos que cubren blasfemias en la radio, o cartas de los soldados a casa o comunicados de documentos clasificados donde las partes censuradas (término más moderno "redactado") se oscurecen.
Wayne el
Imagina que mido el lapso de tiempo entre dos tipos de eventos. Pero solo puedo grabar el evento durante 1 año. ¿El tiempo será censurado o truncado?
skan 01 de
4

Así como una perspectiva desde otro campo (programación), censurar y truncar son dos operaciones distintas.

Cuando trabajo con un conjunto de datos confidenciales, por ejemplo, números de seguridad social y números de teléfono, podría censurarlo o censurarlo antes de que se otorgue el acceso:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Esto permite que el resto de la aplicación funcione como lo haría normalmente, con estructuras de datos similares, pero sin contenido informativo real o difusión de información privada.

El truncamiento, por el contrario, generalmente solo corta los valores restantes después de un cierto punto. Para trabajar en una aplicación, no necesito cientos de miles de registros, tal vez solo necesito ~ 50 de cada uno, lo que hace que el acceso a los datos sea mucho más rápido y los conjuntos de datos sean más pequeños.

Una variante similar de truncamiento es cuando se inserta un valor en una columna o tipo de datos de longitud o precisión limitadas:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10
Ehryk
fuente
1
+1 ¡Es importante saber que la censura y el truncamiento pueden tener significados completamente diferentes fuera de las estadísticas!
MånsT