¿Cómo manejar los datos de conteo (datos categóricos), cuando se ha convertido a una tasa?

9

Estoy trabajando en los datos de infección de la enfermedad y no sé si manejar los datos como "categóricos" o "continuos".

  • "Recuento de infecciones"
    • el número de casos de infección encontrados en un período específico de tiempo, el recuento se genera a partir de datos categóricos (es decir, no de pacientes etiquetados como "infectados")
  • "Días de cama del paciente"

    • suma del número total de días de estancia en la sala por todos los pacientes en esa sala, nuevamente, el recuento se genera a partir de datos categóricos (es decir, no. de pacientes etiquetados como "permanecer en esa sala en particular")
  • "infección por paciente cama días"

    • "recuento de infecciones" / "días de cama del paciente" ambos fueron originalmente datos de recuento, pero ahora se convierten en una tasa

Pregunta:

  • ¿Puedo usar Chi-Square aquí para evaluar si la diferencia en "infecciones por día de cama del paciente" es estadísticamente significativa o no?

Actualizaciones

He descubierto que puedo comparar la tasa de incidencia (o llamarla tasa de infección), pero haciendo algo como "diferencia de tasa de incidencia" (IRD) o "índice de tasa de incidencia" (IRR). (Lo encontré desde aquí )

  • ¿Cuál es la diferencia entre IRD y t-test?
  • ¿Hay alguna prueba estadística complementaria para la TIR?
lokheart
fuente
1
Creo que hacer otra pregunta por separado es mucho mejor que actualizar su pregunta anterior.

Respuestas:

4

Para mí no parece apropiado usar una prueba de chi-cuadrado aquí.

Supongo que lo que quieres hacer es lo siguiente: tienes diferentes salas o tratamientos o cualquier otro tipo de variable nominal (es decir, grupos) que divide tus datos. Para cada uno de estos grupos, recopiló el recuento de infecciones y los días de cama del paciente para calcular la infección por día de cama del paciente . Sabes que quieres verificar las diferencias entre los grupos, ¿verdad?

Si es así, un análisis de varianza (ANOVA, en el caso de más de dos grupos) o una prueba t (en el caso de dos grupos) probablemente sea apropiado dado por las razones en la publicación de Srikant Vadali (y si los supuestos de homogeneidad de varianzas y también se cumplen tamaños de grupos comparables) y se beginnerdebe agregar la etiqueta.

Henrik
fuente
7

No estoy muy seguro de cómo son sus datos o cuál es su problema exacto, pero supongo que tiene una tabla con los siguientes encabezados y tipos:

sala (categórico), infecciones (entero), días de cama del paciente (entero o continuo).

y quieres saber si la tasa de infección es estadísticamente diferente para diferentes salas?

Una forma de hacerlo es usar un modelo de Poisson:

Infecciones ~ Poisson (días de cama del paciente * tasa de infección de sala)

Esto se puede lograr mediante el uso de un Poisson glm, con la función de enlace de registro y el registro de días de cama del paciente en el desplazamiento. En R, el código se vería así:

glm(infections ~ ward + offset(log(patient-bed-days)), family=poisson())
Simon Byrne
fuente
2

Si estaba considerando realizar Poisson o regresiones relacionadas en estos datos (con su variable de resultado como una tasa), recuerde incluir un término de compensación para los días de cama del paciente, ya que técnicamente se convierte en la "exposición" a sus recuentos.

Sin embargo, en ese caso, es posible que también desee considerar usar solo el recuento de infecciones (no la tasa) como su variable dependiente, e incluir los días de cama del paciente como una covariable. Estoy trabajando en un conjunto de datos con una decisión similar de conteo versus tasa y parece que convertir su variable dependiente en una tasa conduce a una disminución de la variabilidad, un aumento de la asimetría y una desviación estándar proporcionalmente mayor. Esto hace que sea más difícil detectar cualquier efecto significativo.

También tenga cuidado si sus datos están truncados o inflados a cero, y realice los ajustes apropiados.

Iris Tsui
fuente
Creo que esta respuesta se relaciona más directamente con la pregunta en el título de la publicación, "¿Cómo manejar los datos de conteo (datos categóricos), cuando se ha convertido a una tasa?"
N Brouwer
1

Desde un punto de vista técnico purista, no puede, ya que su relación "infección por paciente cama días" no es una variable continua. Por ejemplo, un valor irracional nunca aparecerá en su conjunto de datos. Sin embargo, puede ignorar este problema técnico y hacer las pruebas que sean apropiadas para su contexto. A modo de analogía, los niveles de ingresos son discretos, pero casi todos los tratan como continuos.

Por cierto, no está del todo claro por qué quieres hacer un chi-cuadrado, pero supongo que hay algún contexto de fondo por el que eso tiene sentido para ti.


fuente
1

Las pruebas de chi-cuadrado no parecen apropiadas. Como otros dijeron, siempre que haya un número razonable de tasas diferentes, puede tratar los datos como continuos y hacer una regresión o ANOVA. Luego, querrás ver la distribución de los residuos.

Peter Flom
fuente
0

Una forma de proceder es construir varios modelos nulos, cada uno de los cuales supone que los factores son independientes entre sí. La suposición de independencia a menudo los hace fáciles de construir. Entonces las densidades articulares predichas son los productos de las densidades marginales. En la medida en que los datos reales sean consistentes con estos, usted sabe que los factores son independientes. Si son mayores o menores que la predicción conjunta, es posible que pueda inferir que co-varían positiva o negativamente. Tenga cuidado de considerar el número de observaciones en cada caso, y puede hacerlo formalmente tratando a las poblaciones como hipergeometría extendida. Todo esto está en el espíritu de la Prueba Exacta de Fisher, pero Fisher en realidad la formuló para poder modelar situaciones más generales. Véase, por ejemplo, Análisis multivariado discreto: teoría y práctica, por Yvonne M. Bishop,

Jan Galkowski
fuente