Actualmente estoy trabajando con un gran conjunto de datos de reclamos de seguro de salud que incluye algunos reclamos de laboratorio y farmacia. Sin embargo, la información más consistente en el conjunto de datos está compuesta por códigos de diagnóstico (ICD-9CM) y de procedimiento (CPT, HCSPCS, ICD-9CM).
Mis objetivos son:
- Identificar las condiciones precursoras más influyentes (comorbilidades) para una afección médica como la enfermedad renal crónica;
- Identifique la probabilidad (o probabilidad) de que un paciente desarrolle una afección médica según las afecciones que haya tenido en el pasado;
- Haga lo mismo que 1 y 2, pero con procedimientos y / o diagnósticos.
- Preferiblemente, los resultados serían interpretables por un médico.
He examinado cosas como los documentos de Milestone del Premio Heritage Health y he aprendido mucho de ellos, pero se centran en predecir las hospitalizaciones.
Aquí están mis preguntas: ¿Qué métodos crees que funcionan bien para problemas como este? Y, ¿qué recursos serían más útiles para aprender sobre aplicaciones y métodos de ciencia de datos relevantes para la atención médica y la medicina clínica?
EDITAR # 2 para agregar tabla de texto sin formato:
CKD es la condición objetivo, "enfermedad renal crónica", ".any" denota que han adquirido esa condición en cualquier momento, ".isbefore.ckd" significa que tenían esa condición antes de su primer diagnóstico de CKD. Las otras abreviaturas corresponden con otras condiciones identificadas por agrupaciones de códigos ICD-9CM. Esta agrupación ocurre en SQL durante el proceso de importación. Cada variable, con la excepción de patient_age, es binaria.
fuente
Respuestas:
Nunca he trabajado con datos médicos, pero desde un razonamiento general diría que las relaciones entre las variables en el cuidado de la salud son bastante complicadas. Diferentes modelos, como bosques aleatorios, regresión, etc., podrían capturar solo una parte de las relaciones e ignorar otras. En tales circunstancias, tiene sentido utilizar la exploración estadística general y el modelado .
Por ejemplo, lo primero que haría sería encontrar correlaciones entre posibles condiciones precursoras y diagnósticos. Por ejemplo, ¿en qué porcentaje de casos la enfermedad renal crónica fue precedida por una gripe prolongada? Si es alto, no siempre significa causalidad , pero da bastante buena reflexión y ayuda a comprender mejor las relaciones entre las diferentes condiciones.
Otro paso importante es la visualización de datos. ¿La ERC ocurre en los hombres con más frecuencia que en las mujeres? ¿Qué pasa con su lugar de residencia? ¿Cuál es la distribución de casos de ERC por edad? Es difícil comprender un gran conjunto de datos como un conjunto de números, trazarlos lo hace mucho más fácil.
Cuando tenga una idea de lo que está sucediendo, realice una prueba de hipótesis para verificar su suposición. Si rechaza la hipótesis nula (suposición básica) a favor de la alternativa, felicidades, ha hecho "algo real".
Finalmente, cuando comprenda bien sus datos, intente crear un modelo completo . Puede ser algo general como PGM (por ejemplo, una red bayesiana diseñada manualmente), o algo más específico como regresión lineal o SVM , o cualquier otra cosa. Pero de cualquier manera ya sabrá cómo este modelo corresponde a sus datos y cómo puede medir su eficiencia.
Como un buen recurso inicial para aprender el enfoque estadístico, recomendaría el curso Introducción a la Estadística de Sebastian Thrun. Si bien es bastante básico y no incluye temas avanzados, describe los conceptos más importantes y brinda una comprensión sistemática de la teoría de la probabilidad y las estadísticas.
fuente
Si bien no soy un científico de datos, soy un epidemiólogo que trabaja en un entorno clínico. Su pregunta de investigación no especificó un período de tiempo (es decir, ¿probabilidades de desarrollar ERC en 1 año, 10 años, de por vida?).
En general, seguiría una serie de pasos antes de pensar en modelar (análisis univariado, análisis bivariado, verificaciones de colinealidad, etc.). Sin embargo, el método más utilizado para tratar de predecir un evento binario (utilizando variables binarias OR continuas) es la regresión logística. Si quisiera considerar la ERC como un valor de laboratorio (albúmina urinaria, TFGe), utilizaría la regresión lineal (resultado continuo).
Si bien los métodos utilizados deben estar informados por sus datos y preguntas, los médicos están acostumbrados a ver los odds ratios y los cocientes de riesgo, ya que estas son las medidas de asociación más comúnmente reportadas en revistas médicas como NEJM y JAMA.
Si está trabajando en este problema desde una perspectiva de salud humana (a diferencia de Business Intelligence), este modelo de predicción clínica de Steyerberg es un excelente recurso.
fuente
"Identificar las condiciones precursoras (comorbilidades) más influyentes para una afección médica como la enfermedad renal crónica"
No estoy seguro de que sea posible identificar las condiciones más influyentes; Creo que dependerá de qué modelo estés usando. Justo ayer, ajusté un bosque aleatorio y un árbol de regresión impulsado a los mismos datos, y el orden y la importancia relativa que cada modelo dio a las variables fueron bastante diferentes.
fuente