¿Qué tan pequeña se debe agregar una cantidad a x para evitar tomar el registro de cero?

57

He analizado mis datos tal como están. Ahora quiero ver mis análisis después de tomar el registro de todas las variables. Muchas variables contienen muchos ceros. Por lo tanto, agrego una pequeña cantidad para evitar tomar el registro de cero.

Hasta ahora he agregado 10 ^ -10, sin ninguna justificación realmente, solo porque sentí que agregar una cantidad muy pequeña sería recomendable para minimizar el efecto de mi cantidad elegida arbitrariamente. Pero algunas variables contienen principalmente ceros y, por lo tanto, cuando se registran principalmente -23.02. El rango de los rangos de mis variables es 1.33-8819.21, y la frecuencia de ceros también varía dramáticamente. Por lo tanto, mi elección personal de "pequeña cantidad" afecta las variables de manera muy diferente. Ahora está claro que 10 ^ -10 es una opción completamente inaceptable, ya que la mayor parte de la variación en todas las variables proviene de esta "pequeña cantidad" arbitraria.

Me pregunto cuál sería una forma más correcta de hacer esto.

¿Quizás sea mejor derivar la cantidad de cada distribución individual de variables? ¿Hay alguna guía sobre qué tan grande debería ser esta "pequeña cantidad"?

Mis análisis son en su mayoría modelos simples de Cox con cada variable y edad / sexo como IV. Las variables son las concentraciones de varios lípidos en sangre, con coeficientes de variación a menudo considerables.

Editar : Agregar el valor más pequeño que no sea cero de la variable parece práctico para mis datos. Pero tal vez hay una solución general?

Edición 2 : Como los ceros simplemente indican concentraciones por debajo del límite de detección, ¿quizás sea apropiado establecerlos en (límite de detección) / 2?

miura
fuente
44
¿Por qué estás tomando un de las observaciones / variables? log
2
Si agrega a sus variables, las variables que fueron ceros en la escala original serán ceros en la escala logarítmica. 1
MånsT
55
¿Tiene este problema con la variable de respuesta o solo con las variables explicativas? Si solo es lo último, entonces, dependiendo de las consideraciones del tamaño de la muestra, una opción puede ser agregar variables ficticias adicionales que indiquen que la concentración de un analito dado estaba por debajo del umbral de detección. Esto absorbe grados de libertad, pero tiene la ventaja de no imponer una elección arbitraria ad hoc en los datos. También puede descubrir no linealidades o discontinuidades cerca del umbral de detección que de otro modo podrían contabilizarse.
cardenal
2
@Procrastinator La escala logarítmica es natural para las concentraciones debido a la relación exponencial entre la constante de equilibrio y la energía de Gibbs; de hecho, en química "continua" la concentración 0 es algo irreal.
2
Una alternativa sería tomar, por ejemplo, la raíz cúbica de los datos, no lo lleva hasta el registro, pero conserva los ceros sin reescalar.
jbowman

Respuestas:

26

Como los ceros simplemente indican concentraciones por debajo del límite de detección, quizás sea apropiado establecerlos en (límite de detección) / 2

Estaba escribiendo que lo que se me ocurre cuando el registro (con frecuencia) tiene sentido y 0 puede ocurrir son concentraciones cuando hiciste la segunda edición. Como usted dice, para concentraciones medidas el 0 solo significa "No pude medir esas bajas concentraciones".

Nota al margen: ¿te refieres a LOQ en lugar de LOD?

12

  • 12LOQ

    ingrese la descripción de la imagen aquíingrese la descripción de la imagen aquí
    12LOQ

  • Sin embargo, si el valor original medido está disponible, eso puede proporcionar una mejor suposición. Después de todo, LOQ generalmente solo significa que el error relativo es del 10%. Debajo de eso, la medición aún contiene información, pero el error relativo se vuelve enorme.
    ingrese la descripción de la imagen aquí
    (azul: LOD, rojo: LOQ)

  • Una alternativa sería excluir estas medidas. Eso también puede ser razonable,
    por ejemplo, piense en una curva de calibración. En la práctica, a menudo observa una forma sigmoidea: para c baja, señal ≈ constante, comportamiento lineal intermedio, luego saturación del detector. ingrese la descripción de la imagen aquí
    En esa situación, es posible que desee restringirse a las declaraciones sobre concentraciones que están claramente en el rango lineal, ya que tanto por debajo como por encima de otros procesos influyen mucho en el resultado.
    Asegúrese de explicar que los datos se seleccionaron de esa manera y por qué.


editar: lo que es razonable o aceptable, depende, por supuesto, del problema. Con suerte, estamos hablando de una pequeña parte de los datos que no influye en el análisis.

Tal vez una verificación rápida y sucia sea: ejecute su análisis de datos con y sin excluir los datos (o cualquier tratamiento que proponga) y vea si algo cambia sustancialmente.

Si ve cambios, entonces, por supuesto, está en problemas. Sin embargo, desde el punto de vista de la química analítica, diría que su problema no radica principalmente en el método que utiliza para tratar los datos, pero el problema subyacente es que el método analítico (o su rango de trabajo) no era apropiado para El problema en cuestión. Por supuesto, hay una zona donde el mejor enfoque estadístico puede salvar su día, pero al final, la aproximación "basura adentro, basura afuera" generalmente también se aplica a los métodos más sofisticados.

Citas para el tema:

cbeleites apoya a Monica
fuente
1
Me encanta la cita en la parte inferior (+1).
Vuelva a instalar Monica
32

Los datos de concentración química a menudo tienen ceros, pero estos no representan valores cero : son códigos que representan de manera diversa (y confusa) ambos no detectados (la medición indicaba, con un alto grado de probabilidad, que el analito no estaba presente) y "no cuantificado" valores (la medición detectó el analito pero no pudo producir un valor numérico confiable). Vamos a llamar vagamente a estos "ND" aquí.

Por lo general, hay un límite asociado con un ND conocido como "límite de detección", "límite de cuantificación" o (mucho más honestamente) un "límite de informe", porque el laboratorio elige no proporcionar un valor numérico (a menudo para fines legales razones). Sobre todo lo que realmente sabemos de un ND es que el valor verdadero es probablemente menor que el límite asociado: es casi (pero no del todo) una forma de censura a la izquierda1.3301.330.50.1

Se han realizado investigaciones exhaustivas durante los últimos 30 años más o menos en relación con la mejor forma de resumir y evaluar dichos conjuntos de datos. Dennis Helsel publicó un libro sobre esto, Nondetects and Data Analysis (Wiley, 2005), imparte un curso y lanzó un Rpaquete basado en algunas de las técnicas que favorece. Su sitio web es completo.

Este campo está lleno de errores y conceptos erróneos. Helsel es franco sobre esto: en la primera página del capítulo 1 de su libro escribe:

... el método más utilizado en los estudios ambientales hoy en día, la sustitución de la mitad del límite de detección, NO es un método razonable para interpretar datos censurados.

¿Entonces lo que hay que hacer? Las opciones incluyen ignorar este buen consejo, aplicar algunos de los métodos del libro de Helsel y usar algunos métodos alternativos. Así es, el libro no es exhaustivo y existen alternativas válidas. Agregar una constante a todos los valores en el conjunto de datos ("iniciarlos") es uno. Pero considere:

  • 111

  • 0

    Una herramienta excelente para determinar el valor inicial es un gráfico de probabilidad lognormal: aparte de los ND, los datos deben ser aproximadamente lineales.

  • La colección de ND también se puede describir con una distribución denominada "delta lognormal". Esta es una mezcla de una masa puntual y una lognormal.

Como es evidente en los siguientes histogramas de valores simulados, las distribuciones censuradas y delta no son las mismas. El enfoque delta es más útil para las variables explicativas en la regresión: puede crear una variable "ficticia" para indicar los ND, tomar logaritmos de los valores detectados (o transformarlos según sea necesario) y no preocuparse por los valores de reemplazo para los ND .

Histogramas

En estos histogramas, aproximadamente el 20% de los valores más bajos han sido reemplazados por ceros. Para la comparabilidad, todos se basan en los mismos 1000 valores lognormales subyacentes simulados (arriba a la izquierda). La distribución delta se creó reemplazando 200 de los valores por ceros al azar . La distribución censurada se creó reemplazando los 200 valores más pequeños por ceros. La distribución "realista" se ajusta a mi experiencia, que es que los límites de los informes en realidad varían en la práctica (¡incluso cuando el laboratorio no lo indica!): Los hice variar aleatoriamente (solo un poco, rara vez más de 30 en en cualquier dirección) y reemplazó todos los valores simulados inferiores a sus límites de informe por ceros.

Para mostrar la utilidad de la gráfica de probabilidad y explicar su interpretación , la siguiente figura muestra gráficas de probabilidad normales relacionadas con los logaritmos de los datos anteriores.

Gráficos de probabilidad

log(1+0)=0) se grafican demasiado bajo. La esquina inferior izquierda es un gráfico de probabilidad para el conjunto de datos censurado con un valor inicial de 120, que está cerca de un límite de informe típico. El ajuste en la parte inferior izquierda ahora es decente, solo esperamos que todos estos valores se acerquen, pero a la derecha de la línea ajustada, pero la curvatura en la cola superior muestra que agregar 120 está comenzando a alterar el forma de la distribución. La parte inferior derecha muestra lo que sucede con los datos delta-lognormales: hay un buen ajuste en la cola superior, pero hay una curvatura pronunciada cerca del límite de informes (en el centro de la gráfica).

Finalmente, exploremos algunos de los escenarios más realistas:

Gráficos de probabilidad 2

La esquina superior izquierda muestra el conjunto de datos censurado con los ceros establecidos a la mitad del límite de informes. Es un muy buen ajuste. En la esquina superior derecha se encuentra el conjunto de datos más realista (con límites de informes que varían aleatoriamente). Un valor inicial de 1 no ayuda, pero, en la esquina inferior izquierda, para un valor inicial de 120 (cerca del rango superior de los límites de informes) el ajuste es bastante bueno. Curiosamente, la curvatura cerca del medio a medida que los puntos se elevan desde los ND a los valores cuantificados es una reminiscencia de la distribución logarítmica delta (aunque estos datos no se generaron a partir de tal mezcla). En la esquina inferior derecha se encuentra la gráfica de probabilidad que se obtiene cuando los datos realistas tienen sus ND reemplazados por la mitad del límite de informe (típico). Este es el mejor ajuste, a pesar de que muestra un comportamiento delta-lognormal en el medio.

Lo que debe hacer, entonces, es usar gráficos de probabilidad para explorar las distribuciones a medida que se usan varias constantes en lugar de las ND. Comience la búsqueda con la mitad del límite de informe nominal, promedio, y luego varíela de arriba a abajo. Elija una gráfica que se parezca a la parte inferior derecha: aproximadamente una línea recta diagonal para los valores cuantificados, un descenso rápido a una meseta baja y una meseta de valores que (apenas) cumple con la extensión de la diagonal. Sin embargo, siguiendo el consejo de Helsel (que está fuertemente respaldado en la literatura), para resúmenes estadísticos reales, evite cualquier método que reemplace las ND por cualquier constante. Para la regresión, considere agregar una variable ficticia para indicar los ND. Para algunas pantallas gráficas, el reemplazo constante de ND por el valor encontrado con el ejercicio de diagrama de probabilidad funcionará bien. Para otras pantallas gráficas, puede ser importante representar los límites de informes reales, por lo tanto, reemplace los ND por sus límites de informes. ¡Necesitas ser flexible!

whuber
fuente
1
Muy buena respuesta! Estoy completamente de acuerdo. Y estoy familiarizado con la sensación cuando nos fijamos en los datos y se dan cuenta de que antes se ha transformado "como de costumbre" hubo un conjunto de datos perfectamente útil ...
cbeleites apoya Mónica
1
límites variables : existen varios enfoques diferentes para calcular LOD (límite de detección -> para respuestas cualitativas) y LOQ (límite de cuantificación, que es para mediciones cuantitativas). Supongo que un laboratorio generalmente no cambiará el método de cómo se calculan (para el mismo método de análisis). Sin embargo, estos valores se recalculan cada vez que se realiza el cálculo. Si el método necesita calibración todos los días hábiles, entonces todos los días tendrá un límite (ligeramente) diferente.
cbeleites apoya a Monica el
1
límites y razones legales para no proporcionar números bajos: las razones legales no prohibirían dar información (adicional) más detallada, como la señal en bruto, la concentración correspondiente y el intervalo de confianza / juicio de la medición (por ejemplo, "debajo de LOQ"). Además, puede solicitar al laboratorio de análisis la curva de calibración. Espero que tenga que pagar por eso, ya que es un trabajo adicional, pero espero que esto sea posible. El compromiso más barato puede ser que le brinden todos los datos sin procesar y le dejen el análisis de datos. Puede ser útil si saben que eres estadístico / quimiométrico / químico analítico / ...
cbeleites apoya a Monica el
1
En mi trabajo a menudo encontramos ceros porque los datos son redondeados. En tal caso, estos son datos agrupados, consulte stats.stackexchange.com/questions/26950/…
Stéphane Laurent
2
Hay un campo completo, "quimiometría", dedicado a este y temas relacionados, y se han escrito libros enteros (y se siguen escribiendo) que tratan únicamente de lo que es un "límite de detección". ¡He encontrado más de 20 definiciones distintas! La cuestión de volver a expresar una variable (como tomar su logaritmo) también es clave en el análisis y la exploración de datos; Gran parte de muchos libros (especialmente libros sobre análisis exploratorio de datos) se enfocan en ese tema.
whuber
5

@miura

EconStats
fuente
3

ithmean(xi)n×stddev(xi)n

Tenga en cuenta que cualquier configuración artificial de este tipo afectará sus análisis, por lo que debe tener cuidado con su interpretación y, en algunos casos, descartar estos casos para evitar artefactos.

Usar el límite de detección también es una idea razonable.

Itamar
fuente
3

Para aclarar cómo lidiar con el registro de cero en los modelos de regresión, hemos escrito un artículo pedagógico que explica la mejor solución y los errores comunes que las personas cometen en la práctica. También presentamos una nueva solución para abordar este problema.

Puede encontrar el documento haciendo clic aquí: https://ssrn.com/abstract=3444996

log(y)=βlog(x)+εβyx

YY+c>0

En nuestro artículo, en realidad proporcionamos un ejemplo donde agregar constantes muy pequeñas es en realidad proporcionar el mayor sesgo. Proporcionamos derivar una expresión del sesgo.

En realidad, Poisson Pseudo Maximum Likelihood (PPML) puede considerarse como una buena solución para este problema. Hay que considerar el siguiente proceso:

yi=aiexp(α+xiβ)E(ai|xi)=1

βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

yi=0

β

log(yi+exp(α+xiβ))=xiβ+ηi

Mostramos que este estimador es imparcial y que simplemente puede estimarse con GMM con cualquier software estadístico estándar. Por ejemplo, puede estimarse ejecutando solo una línea de código con Stata.

Esperamos que este artículo pueda ayudar y nos encantaría recibir sus comentarios.

Christophe Bellégo y Louis-Daniel Pape, CREST - Ecole Polytechnique - ENSAE

Christophe Bellégo
fuente