Predecir la próxima afección médica a partir de afecciones pasadas en los datos de reclamos

Actualmente estoy trabajando con un gran conjunto de datos de reclamos de seguro de salud que incluye algunos reclamos de laboratorio y farmacia. Sin embargo, la información más consistente en el conjunto de datos está compuesta por códigos de diagnóstico (ICD-9CM) y de procedimiento (CPT, HCSPCS, ICD-9CM).

Mis objetivos son:

Identificar las condiciones precursoras más influyentes (comorbilidades) para una afección médica como la enfermedad renal crónica;
Identifique la probabilidad (o probabilidad) de que un paciente desarrolle una afección médica según las afecciones que haya tenido en el pasado;
Haga lo mismo que 1 y 2, pero con procedimientos y / o diagnósticos.
Preferiblemente, los resultados serían interpretables por un médico.

He examinado cosas como los documentos de Milestone del Premio Heritage Health y he aprendido mucho de ellos, pero se centran en predecir las hospitalizaciones.

Aquí están mis preguntas: ¿Qué métodos crees que funcionan bien para problemas como este? Y, ¿qué recursos serían más útiles para aprender sobre aplicaciones y métodos de ciencia de datos relevantes para la atención médica y la medicina clínica?

EDITAR # 2 para agregar tabla de texto sin formato:

CKD es la condición objetivo, "enfermedad renal crónica", ".any" denota que han adquirido esa condición en cualquier momento, ".isbefore.ckd" significa que tenían esa condición antes de su primer diagnóstico de CKD. Las otras abreviaturas corresponden con otras condiciones identificadas por agrupaciones de códigos ICD-9CM. Esta agrupación ocurre en SQL durante el proceso de importación. Cada variable, con la excepción de patient_age, es binaria.

machine-learning r Jamie
fuente

¿Puede proporcionar algunos datos de ejemplo (en inglés simple, sin códigos)?

amigo

Agregué algunos datos de ejemplo a mi publicación original. En esta versión, cada condición se denota con un código de tres letras.

Jamie

R es genial, pero no muy legible para los humanos. ¿Podría reformatear la muestra de sus datos como una tabla (por ejemplo, usando el formato CSV o TSV; 5-6 columnas está bien)? Además, alguna explicación de las variables (qué significa "ans.any", "flu.isbefore.ckd", etc., y qué se debe predecir) será de gran ayuda.

amigo

¿Puede proporcionar más información sobre los parámetros utilizados en el conjunto de datos para que podamos entender si hay alguna correlación? Algunas de las abreviaturas mencionadas por usted no me quedan claras. Sería genial si pudieras compartir tu identificación de correo electrónico para que colaboremos sin conexión. ¡Gracias!

JohnGalt

Esto está solo un poco relacionado, pero nuestro desafío más reciente de ciencia de datos se refería a la predicción de reclamos de otros reclamos. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Cuando se lanza la solución, puede contener algunas ideas interesantes.

Sean Owen

Respuestas:

Nunca he trabajado con datos médicos, pero desde un razonamiento general diría que las relaciones entre las variables en el cuidado de la salud son bastante complicadas. Diferentes modelos, como bosques aleatorios, regresión, etc., podrían capturar solo una parte de las relaciones e ignorar otras. En tales circunstancias, tiene sentido utilizar la exploración estadística general y el modelado .

Por ejemplo, lo primero que haría sería encontrar correlaciones entre posibles condiciones precursoras y diagnósticos. Por ejemplo, ¿en qué porcentaje de casos la enfermedad renal crónica fue precedida por una gripe prolongada? Si es alto, no siempre significa causalidad , pero da bastante buena reflexión y ayuda a comprender mejor las relaciones entre las diferentes condiciones.

Otro paso importante es la visualización de datos. ¿La ERC ocurre en los hombres con más frecuencia que en las mujeres? ¿Qué pasa con su lugar de residencia? ¿Cuál es la distribución de casos de ERC por edad? Es difícil comprender un gran conjunto de datos como un conjunto de números, trazarlos lo hace mucho más fácil.

Cuando tenga una idea de lo que está sucediendo, realice una prueba de hipótesis para verificar su suposición. Si rechaza la hipótesis nula (suposición básica) a favor de la alternativa, felicidades, ha hecho "algo real".

Finalmente, cuando comprenda bien sus datos, intente crear un modelo completo . Puede ser algo general como PGM (por ejemplo, una red bayesiana diseñada manualmente), o algo más específico como regresión lineal o SVM , o cualquier otra cosa. Pero de cualquier manera ya sabrá cómo este modelo corresponde a sus datos y cómo puede medir su eficiencia.

Como un buen recurso inicial para aprender el enfoque estadístico, recomendaría el curso Introducción a la Estadística de Sebastian Thrun. Si bien es bastante básico y no incluye temas avanzados, describe los conceptos más importantes y brinda una comprensión sistemática de la teoría de la probabilidad y las estadísticas.

amigo
fuente

¡Gracias por esto! Confirma algunos de los pasos que ya he tomado (análisis exploratorio, prueba de hipótesis, etc.).

Jamie

Si bien no soy un científico de datos, soy un epidemiólogo que trabaja en un entorno clínico. Su pregunta de investigación no especificó un período de tiempo (es decir, ¿probabilidades de desarrollar ERC en 1 año, 10 años, de por vida?).

En general, seguiría una serie de pasos antes de pensar en modelar (análisis univariado, análisis bivariado, verificaciones de colinealidad, etc.). Sin embargo, el método más utilizado para tratar de predecir un evento binario (utilizando variables binarias OR continuas) es la regresión logística. Si quisiera considerar la ERC como un valor de laboratorio (albúmina urinaria, TFGe), utilizaría la regresión lineal (resultado continuo).

Si bien los métodos utilizados deben estar informados por sus datos y preguntas, los médicos están acostumbrados a ver los odds ratios y los cocientes de riesgo, ya que estas son las medidas de asociación más comúnmente reportadas en revistas médicas como NEJM y JAMA.

Si está trabajando en este problema desde una perspectiva de salud humana (a diferencia de Business Intelligence), este modelo de predicción clínica de Steyerberg es un excelente recurso.

dani
fuente

Gracias por las útiles sugerencias. Definitivamente voy a revisar ese libro! Aunque tengo acceso a los valores de laboratorio, los datos son poco confiables y esporádicos, por lo que estoy tratando de mantener los datos que puedo obtener de los reclamos. Las abreviaturas variables son en realidad agrupaciones de códigos de diagnóstico del software de clasificación clínica AHRQ.

Jamie

"Identificar las condiciones precursoras (comorbilidades) más influyentes para una afección médica como la enfermedad renal crónica"

No estoy seguro de que sea posible identificar las condiciones más influyentes; Creo que dependerá de qué modelo estés usando. Justo ayer, ajusté un bosque aleatorio y un árbol de regresión impulsado a los mismos datos, y el orden y la importancia relativa que cada modelo dio a las variables fueron bastante diferentes.

JenSCDC
fuente

Gracias Andy ¿Podrías elaborar un poco? ¿Es porque las variables no capturan suficientes detalles?

Jamie

No tengo idea. Supongo que depende de cómo funcionen los diferentes modelos.

JenSCDC

¿Podría sugerir algunas de las soluciones que probó o consideró?

Jamie

Hasta ahora tampoco lo he hecho, así que no hay ayuda allí. Lo siento.

JenSCDC

Ahora estoy de vacaciones durante las próximas semanas, pero cuando regrese lo investigaré porque realmente ha despertado mi interés.

JenSCDC