Calcular la probabilidad de aparición de la enfermedad

Soy médico, así que por favor sea amable conmigo y mi comprensión básica de las estadísticas.

Tengo un conjunto de datos que consta de pacientes y sus visitas y he etiquetado la presencia de un tipo específico de lunar en su mano izquierda y / o derecha con valores de {0,1} (0 = no presente y 1 = presente). El conjunto de datos se ve así:

** Lo eliminé ya que se proporcionan las respuestas; Puedo enviarlo a pedido nuevo

Entonces, eso significa que el paciente A1-001 tuvo 6 visitas sin presencia de lunares en su mano derecha durante todas las visitas y presencia de lunares en su mano izquierda en todas las visitas, excepto en la primera.

Estoy interesado en encontrar la probabilidad de que una mano desarrolle un lunar solo entre los pacientes que desarrollaron un lunar en una mano y encontrar la probabilidad de desarrollar un lunar en la otra mano (dado que el paciente ya tenía un lunar en la otra mano) .

Además, quiero saber cuál es la probabilidad de desarrollar un lunar en las visitas entre los pacientes que desarrollaron un lunar en algún momento en ambas manos.

¿Podrías ayudarme a modelar estas simples preguntas?

probability incidence-rate-ratio laza
fuente

"Además, quiero saber cuál es la probabilidad de desarrollar un lunar en la misma visita entre los pacientes que desarrollaron un lunar en algún momento en ambas manos". - Pero está codificando lunares por mano como presentes o ausentes en lugar de contar la cantidad de lunares, por lo que si un paciente ya tiene un lunar en cada mano, ¿cómo sería visible un lunar adicional en los datos?

Kodiólogo

@Kodiologist Sí, solo estoy interesado en la presencia y no en la cantidad de lunares. Si un paciente ya tiene un lunar en cada mano, entonces no es posible tener uno adicional: solo es posible quedarse con este lunar o el lunar para desaparecer.

laza

Proporcionar el conjunto completo de datos puede aclarar la pregunta y ayudar a recibir una respuesta.

Todd D

@Todd No entiendo cómo proporcionar el conjunto de datos completo cambiará la solución al problema. No soy matemático, pero creo que el problema está bien definido incluso con este tamaño de muestra. Supongo que resolver el problema para N = 3 (número de pacientes) será lo mismo que resolver el problema para N = 100.

laza

@laza, las matemáticas no son difíciles para los matemáticos. Pero plantea un problema que no se trata de las matemáticas y, en cambio, de tratar de entender lo que quiere decir (es por eso que se le preguntó a un conjunto de datos más grande) ... ¿qué quiere decir con "Quiero saber cuál es el probabilidad de desarrollar un lunar en la misma visita entre los pacientes que desarrollaron un lunar en algún momento en ambas manos ". ? Usted no respondió a esa pregunta de Kodiologist,

Sextus Empiricus

Respuestas:

Personalmente, creo que esto se presta bien para un análisis de supervivencia.

Tiene personas sin lunares en cierta mano al comienzo del período (su población en riesgo); puede seleccionarlos, y tiene puntos de tiempo para el seguimiento y si fueron censurados o no (desarrollaron un lunar). Esto te da un peligro para cualquier cohorte que hayas seleccionado.

Luego puede calcular una razón de riesgo (por ejemplo, para desarrollar un lunar derecho en personas con lunares izquierdos al inicio del estudio, en comparación con los que no lo tienen). Esto podría expresarse en un gráfico de Kaplan-Meier y vendrá con un intervalo de confianza.

James
fuente

Hola @James, creo que le daré una oportunidad a estas líneas de vida.readthedocs.io/en/latest/… ¿Qué opinas?

laza

Estoy seguro de que está bien. Si bien amo Python, generalmente prefiero R para las estadísticas, pero esto parece razonablemente bien respaldado.

James

¿Me puede dar una pista o dos wrt llevando los datos al formato correcto?

laza

Como dice, debe saber el tiempo durante el cual las personas fueron observadas y cuándo 'murieron' (es decir, obtuvieron un lunar) o la última vez que fueron vistos si no obtuvieron un lunar. Entonces, para cada paciente, rastree el tiempo desde el primer momento en que los vio sin un lunar, hasta el momento en que obtuvieron el lunar o fueron vistos por última vez. Esa es la columna 'T' en el enlace de ejemplo. La columna 'E' es si obtuvieron un lunar o no. Luego necesita 1 fila por paciente.

James

Pero, ¿qué sucede si el paciente tuvo un lunar inmediatamente en la primera visita? Y en otra pregunta, ¿por qué crees que las cadenas de Markov no son adecuadas para este problema? Es un problema de transición y, según lo que leí, parecen muy adecuados para abordar este tipo de problemas.

laza

No hay que modelar aquí, todas sus preguntas son simples probabilidades condicionales.

Muy bien, dado que la gente no apreciaba esa respuesta, debes aclarar un par de cosas.

Estoy interesado en encontrar la probabilidad de que una mano desarrolle un lunar solo entre los pacientes que desarrollaron un lunar en una mano y encontrar la probabilidad de desarrollar un lunar en la otra mano (dado que el paciente ya tenía un lunar en la otra mano) .

¿Quieres decir por visita? ¿O que nunca desarrollaron un lunar? De tu ejemplo:

Los pacientes 1 y 3 desarrollaron un lunar por un lado. El paciente 1 nunca desarrolló un lunar, pero sí el paciente 3, por lo que podría argumentar que la respuesta a su pregunta es del 50%. Ahora, también podría argumentar que el paciente 1 tuvo 4 chequeos con 1 lunar y no con el otro y que el paciente 3 tuvo 0 chequeos con 1 lunar y no con el otro, por lo que la probabilidad podría ser 1/5 = 20%. Depende de cómo defina su pregunta.

astel
fuente

Gracias por su respuesta. ¿Me pueden ayudar incluso con eso? Yo realmente lo apreciaría. Sin embargo, algunos colegas míos me dijeron que usara modelos longitudinales para los datos o las estadísticas bayesianas. Estos no se aplican aquí, supongo.

laza

Esta publicación no responde la pregunta, porque cualquier afirmación sobre una probabilidad es intrínsecamente un modelo. La cuestión importante es "¿qué modelo es (o debería ser)?"

whuber

Personalmente, creo que puede comenzar estudiando los modelos lineales generalizados de varianza múltiple : https://cran.r-project.org/web/packages/mcglm/index.html

https://cran.r-project.org/web/packages/mcglm/vignettes/GLMExamples.html

http://cursos.leg.ufpr.br/mcglm4aed/slides/2-mcglm.html#(1)

Esos modelos son apropiados para cuando tiene más de una variable de respuesta y no son gaussianos, y este es su caso, ya que tiene dos variables binarias (mole o no mole en cada mano). Además, el método le permite lidiar con dependencias intraindividuales, que viene dada por la estructura longitudinal. Aquí, longitudinal significa medidas repetidas para el mismo individuo, a lo largo del tiempo.

Creo que los enlaces anteriores lo ayudarán a tener una buena idea sobre estas técnicas, y también proporcionan la implementación computacional en R.

Bruna w
fuente