Estoy tratando de ejecutar un modelo para estimar qué tan bien las enfermedades catastróficas como la tuberculosis, el SIDA, etc. afectan el gasto en hospitalización. Tengo "costo por hospitalización" como variable dependiente y varios marcadores individuales como variables independientes, casi todos los cuales son ficticios, como el género, el estado del jefe de familia, el estado de pobreza y, por supuesto, un ficticio para determinar si tiene la enfermedad (más la edad y edad al cuadrado) y un montón de términos de interacción.
Como es de esperar, hay una cantidad significativa, y me refiero a una gran cantidad de datos acumulados en cero (es decir, sin gastos de hospitalización en el período de referencia de 12 meses). ¿Cuál sería la mejor manera de manejar datos como estos?
A partir de ahora decidí convertir el costo a ln(1+cost)
fin de incluir todas las observaciones y luego ejecutar un modelo lineal. ¿Estoy en el camino correcto?
Respuestas:
Como se discutió en otra parte del sitio, la regresión ordinal (por ejemplo, probabilidades proporcionales, riesgos proporcionales, probit) es un enfoque flexible y robusto. Se permiten discontinuidades en la distribución de , incluida la aglomeración extrema. Nada se asume sobre la distribución de para un solo . Los modelos con cero inflado hacen muchas más suposiciones que los modelos semiparamétricos. Para obtener un estudio de caso completo, consulte el Capítulo 15 de los folletos del curso en http://biostat.mc.vanderbilt.edu/CourseBios330 .Y Y X
Una gran ventaja de los modelos ordinales para continuo es que no necesita saber cómo transformar antes del análisis.Y Y
fuente
Agruparse en 0 se llama "inflación cero". Con mucho, los casos más comunes son modelos de recuento, que conducen a Poisson inflado a cero y regresión binomial negativa inflada a cero. Sin embargo, hay formas de modelar la inflación cero con valores positivos reales (por ejemplo, modelo gamma con inflación cero).
Ver Min y Agresti, 2002, Modelado de datos no negativos con agrupamiento en cero para una revisión de estos métodos.
fuente
La sugerencia de utilizar un modelo de Poisson inflado a cero es un comienzo interesante. Tiene algunos beneficios de modelar conjuntamente la probabilidad de tener costos relacionados con la enfermedad, así como el proceso de cuáles son esos costos en caso de que tenga alguna enfermedad. Tiene la limitación de que impone una estructura estricta sobre cuál es la forma del resultado, con la condición de haber acumulado costos (por ejemplo, una relación media-varianza específica y un resultado entero positivo ... el último de los cuales puede ser relajado para algunos propósitos de modelado).
Si estás bien con el tratamiento de la admisión de la enfermedad relacionada y los costos de la enfermedad relacionada con la admisión condicionada a procesos de forma independiente, se puede extender este por primera modelar el proceso binario de sí / no hizo que se acumulan los costes relacionados con la enfermedad? Este es un modelo de regresión logística simple y le permite evaluar los factores de riesgo y la prevalencia. Dado eso, puede restringir un análisis al subconjunto de individuos que han acumulado costos y modelar el proceso de costos real utilizando una serie de técnicas de modelado. Poisson es bueno, cuasi-poisson sería mejor (teniendo en cuenta las pequeñas fuentes de covarianza no medidas en los datos y las desviaciones de los supuestos del modelo). Pero el cielo es el límite para modelar el proceso de costo continuo.
Si absolutamente necesita modelar la correlación de parámetros en el proceso, puede usar estimaciones SE de bootstrap. No veo ninguna razón por la cual esto no sea válido, pero sería curioso escuchar las opiniones de otros si esto pudiera estar equivocado. En general, creo que esas son dos preguntas separadas y deben tratarse como tales para tener una inferencia válida.
fuente