He analizado mis datos tal como están. Ahora quiero ver mis análisis después de tomar el registro de todas las variables. Muchas variables contienen muchos ceros. Por lo tanto, agrego una pequeña cantidad para evitar tomar el registro de cero.
Hasta ahora he agregado 10 ^ -10, sin ninguna justificación realmente, solo porque sentí que agregar una cantidad muy pequeña sería recomendable para minimizar el efecto de mi cantidad elegida arbitrariamente. Pero algunas variables contienen principalmente ceros y, por lo tanto, cuando se registran principalmente -23.02. El rango de los rangos de mis variables es 1.33-8819.21, y la frecuencia de ceros también varía dramáticamente. Por lo tanto, mi elección personal de "pequeña cantidad" afecta las variables de manera muy diferente. Ahora está claro que 10 ^ -10 es una opción completamente inaceptable, ya que la mayor parte de la variación en todas las variables proviene de esta "pequeña cantidad" arbitraria.
Me pregunto cuál sería una forma más correcta de hacer esto.
¿Quizás sea mejor derivar la cantidad de cada distribución individual de variables? ¿Hay alguna guía sobre qué tan grande debería ser esta "pequeña cantidad"?
Mis análisis son en su mayoría modelos simples de Cox con cada variable y edad / sexo como IV. Las variables son las concentraciones de varios lípidos en sangre, con coeficientes de variación a menudo considerables.
Editar : Agregar el valor más pequeño que no sea cero de la variable parece práctico para mis datos. Pero tal vez hay una solución general?
Edición 2 : Como los ceros simplemente indican concentraciones por debajo del límite de detección, ¿quizás sea apropiado establecerlos en (límite de detección) / 2?
Respuestas:
Estaba escribiendo que lo que se me ocurre cuando el registro (con frecuencia) tiene sentido y 0 puede ocurrir son concentraciones cuando hiciste la segunda edición. Como usted dice, para concentraciones medidas el 0 solo significa "No pude medir esas bajas concentraciones".
Nota al margen: ¿te refieres a LOQ en lugar de LOD?
Sin embargo, si el valor original medido está disponible, eso puede proporcionar una mejor suposición. Después de todo, LOQ generalmente solo significa que el error relativo es del 10%. Debajo de eso, la medición aún contiene información, pero el error relativo se vuelve enorme.
(azul: LOD, rojo: LOQ)
Una alternativa sería excluir estas medidas. Eso también puede ser razonable,
por ejemplo, piense en una curva de calibración. En la práctica, a menudo observa una forma sigmoidea: para c baja, señal ≈ constante, comportamiento lineal intermedio, luego saturación del detector.
En esa situación, es posible que desee restringirse a las declaraciones sobre concentraciones que están claramente en el rango lineal, ya que tanto por debajo como por encima de otros procesos influyen mucho en el resultado.
Asegúrese de explicar que los datos se seleccionaron de esa manera y por qué.
editar: lo que es razonable o aceptable, depende, por supuesto, del problema. Con suerte, estamos hablando de una pequeña parte de los datos que no influye en el análisis.
Tal vez una verificación rápida y sucia sea: ejecute su análisis de datos con y sin excluir los datos (o cualquier tratamiento que proponga) y vea si algo cambia sustancialmente.
Si ve cambios, entonces, por supuesto, está en problemas. Sin embargo, desde el punto de vista de la química analítica, diría que su problema no radica principalmente en el método que utiliza para tratar los datos, pero el problema subyacente es que el método analítico (o su rango de trabajo) no era apropiado para El problema en cuestión. Por supuesto, hay una zona donde el mejor enfoque estadístico puede salvar su día, pero al final, la aproximación "basura adentro, basura afuera" generalmente también se aplica a los métodos más sofisticados.
Citas para el tema:
Un estadístico me dijo una vez:
Fisher sobre la estadística post mortem de experimentos
fuente
Los datos de concentración química a menudo tienen ceros, pero estos no representan valores cero : son códigos que representan de manera diversa (y confusa) ambos no detectados (la medición indicaba, con un alto grado de probabilidad, que el analito no estaba presente) y "no cuantificado" valores (la medición detectó el analito pero no pudo producir un valor numérico confiable). Vamos a llamar vagamente a estos "ND" aquí.
Por lo general, hay un límite asociado con un ND conocido como "límite de detección", "límite de cuantificación" o (mucho más honestamente) un "límite de informe", porque el laboratorio elige no proporcionar un valor numérico (a menudo para fines legales razones). Sobre todo lo que realmente sabemos de un ND es que el valor verdadero es probablemente menor que el límite asociado: es casi (pero no del todo) una forma de censura a la izquierda1.33 0 1.33 0.5 0.1
Se han realizado investigaciones exhaustivas durante los últimos 30 años más o menos en relación con la mejor forma de resumir y evaluar dichos conjuntos de datos. Dennis Helsel publicó un libro sobre esto, Nondetects and Data Analysis (Wiley, 2005), imparte un curso y lanzó un
R
paquete basado en algunas de las técnicas que favorece. Su sitio web es completo.Este campo está lleno de errores y conceptos erróneos. Helsel es franco sobre esto: en la primera página del capítulo 1 de su libro escribe:
¿Entonces lo que hay que hacer? Las opciones incluyen ignorar este buen consejo, aplicar algunos de los métodos del libro de Helsel y usar algunos métodos alternativos. Así es, el libro no es exhaustivo y existen alternativas válidas. Agregar una constante a todos los valores en el conjunto de datos ("iniciarlos") es uno. Pero considere:
Una herramienta excelente para determinar el valor inicial es un gráfico de probabilidad lognormal: aparte de los ND, los datos deben ser aproximadamente lineales.
La colección de ND también se puede describir con una distribución denominada "delta lognormal". Esta es una mezcla de una masa puntual y una lognormal.
Como es evidente en los siguientes histogramas de valores simulados, las distribuciones censuradas y delta no son las mismas. El enfoque delta es más útil para las variables explicativas en la regresión: puede crear una variable "ficticia" para indicar los ND, tomar logaritmos de los valores detectados (o transformarlos según sea necesario) y no preocuparse por los valores de reemplazo para los ND .
En estos histogramas, aproximadamente el 20% de los valores más bajos han sido reemplazados por ceros. Para la comparabilidad, todos se basan en los mismos 1000 valores lognormales subyacentes simulados (arriba a la izquierda). La distribución delta se creó reemplazando 200 de los valores por ceros al azar . La distribución censurada se creó reemplazando los 200 valores más pequeños por ceros. La distribución "realista" se ajusta a mi experiencia, que es que los límites de los informes en realidad varían en la práctica (¡incluso cuando el laboratorio no lo indica!): Los hice variar aleatoriamente (solo un poco, rara vez más de 30 en en cualquier dirección) y reemplazó todos los valores simulados inferiores a sus límites de informe por ceros.
Para mostrar la utilidad de la gráfica de probabilidad y explicar su interpretación , la siguiente figura muestra gráficas de probabilidad normales relacionadas con los logaritmos de los datos anteriores.
Finalmente, exploremos algunos de los escenarios más realistas:
La esquina superior izquierda muestra el conjunto de datos censurado con los ceros establecidos a la mitad del límite de informes. Es un muy buen ajuste. En la esquina superior derecha se encuentra el conjunto de datos más realista (con límites de informes que varían aleatoriamente). Un valor inicial de 1 no ayuda, pero, en la esquina inferior izquierda, para un valor inicial de 120 (cerca del rango superior de los límites de informes) el ajuste es bastante bueno. Curiosamente, la curvatura cerca del medio a medida que los puntos se elevan desde los ND a los valores cuantificados es una reminiscencia de la distribución logarítmica delta (aunque estos datos no se generaron a partir de tal mezcla). En la esquina inferior derecha se encuentra la gráfica de probabilidad que se obtiene cuando los datos realistas tienen sus ND reemplazados por la mitad del límite de informe (típico). Este es el mejor ajuste, a pesar de que muestra un comportamiento delta-lognormal en el medio.
Lo que debe hacer, entonces, es usar gráficos de probabilidad para explorar las distribuciones a medida que se usan varias constantes en lugar de las ND. Comience la búsqueda con la mitad del límite de informe nominal, promedio, y luego varíela de arriba a abajo. Elija una gráfica que se parezca a la parte inferior derecha: aproximadamente una línea recta diagonal para los valores cuantificados, un descenso rápido a una meseta baja y una meseta de valores que (apenas) cumple con la extensión de la diagonal. Sin embargo, siguiendo el consejo de Helsel (que está fuertemente respaldado en la literatura), para resúmenes estadísticos reales, evite cualquier método que reemplace las ND por cualquier constante. Para la regresión, considere agregar una variable ficticia para indicar los ND. Para algunas pantallas gráficas, el reemplazo constante de ND por el valor encontrado con el ejercicio de diagrama de probabilidad funcionará bien. Para otras pantallas gráficas, puede ser importante representar los límites de informes reales, por lo tanto, reemplace los ND por sus límites de informes. ¡Necesitas ser flexible!
fuente
@miura
fuente
Tenga en cuenta que cualquier configuración artificial de este tipo afectará sus análisis, por lo que debe tener cuidado con su interpretación y, en algunos casos, descartar estos casos para evitar artefactos.
Usar el límite de detección también es una idea razonable.
fuente
Para aclarar cómo lidiar con el registro de cero en los modelos de regresión, hemos escrito un artículo pedagógico que explica la mejor solución y los errores comunes que las personas cometen en la práctica. También presentamos una nueva solución para abordar este problema.
Puede encontrar el documento haciendo clic aquí: https://ssrn.com/abstract=3444996
En nuestro artículo, en realidad proporcionamos un ejemplo donde agregar constantes muy pequeñas es en realidad proporcionar el mayor sesgo. Proporcionamos derivar una expresión del sesgo.
En realidad, Poisson Pseudo Maximum Likelihood (PPML) puede considerarse como una buena solución para este problema. Hay que considerar el siguiente proceso:
Mostramos que este estimador es imparcial y que simplemente puede estimarse con GMM con cualquier software estadístico estándar. Por ejemplo, puede estimarse ejecutando solo una línea de código con Stata.
Esperamos que este artículo pueda ayudar y nos encantaría recibir sus comentarios.
Christophe Bellégo y Louis-Daniel Pape, CREST - Ecole Polytechnique - ENSAE
fuente