Error estándar de un recuento

14

Tengo un conjunto de datos de casos incidentes por temporada de una enfermedad rara. Por ejemplo, digamos que hubo 180 casos en la primavera, 90 en el verano, 45 en el otoño y 210 en el invierno. Me cuesta saber si es apropiado adjuntar errores estándar a estos números. Los objetivos de la investigación son inferenciales en el sentido de que estamos buscando un patrón estacional en la incidencia de enfermedades que pueda repetirse en el futuro. Por lo tanto, se siente intuitivamente que debería ser posible adjuntar una medida de incertidumbre a los totales. Sin embargo, no estoy seguro de cómo se calcularía un error estándar en este caso, ya que estamos tratando con recuentos simples en lugar de, por ejemplo, medias o proporciones.

Finalmente, ¿dependería la respuesta de si los datos representan la población de casos (cada caso que ha ocurrido alguna vez) o una muestra aleatoria? Si no me equivoco, generalmente no tiene sentido presentar errores estándar con estadísticas de población, ya que no hay inferencia.

poisson-distribution standard-error count-data medio paso
fuente

El recuento es una proporción no normalizada para que pueda calcular st. error de proporción y "anormalizarlo" en unidades de conteo, si tiene sentido para usted. Tienes razón que st. El error es aplicable solo a la muestra. En población, no hay error.

ttnphns

14

La población es el conjunto (hipotético) de todas las personas que están en riesgo de contraer la enfermedad; generalmente, que consiste en todas las personas (o algún subgrupo de personas claramente identificable) que residen en el área de estudio. Es importante definir esta población claramente, porque es el objetivo del estudio y de todas las inferencias hechas a partir de los datos.

Cuando los casos de la enfermedad son independientes (lo que podría ser una hipótesis razonable cuando la enfermedad no se comunica fácilmente entre las personas y no es causada por las condiciones ambientales locales) y son raros, los recuentos deben seguir de cerca una distribución de Poisson . Para esta distribución, una buena estimación de su desviación estándar es la raíz cuadrada del recuento .

$(180, 90, 45, 210)$ $(13.4, 9.5, 6.7, 14.5)$ evento, el número real de enfermedades observadas durante una temporada variará de esa tasa real. La raíz cuadrada de la tasa verdadera (¡pero desconocida!) Cuantifica la cantidad de variación que puede ocurrir. Debido a que los recuentos observados deben estar cerca de las tasas reales, sus raíces cuadradas deben ser indicadores razonables para las raíces cuadradas de las tasas reales. Estos proxies son exactamente lo que se entiende por "error estándar".

$165$ $77$ $14.5$ $77$

$9$ $(20, 10, 5, 23)$ $(4.5, 3.2, 2.2, 4.8)$ $9$ $(40, 28.5, 20, 44)$

Eso es lo más lejos que se puede llegar con estos datos limitados. Estos simples cálculos han revelado que:

Caracterizar a la población es fundamental,
La raíz cuadrada de un conteo es un punto de partida aproximado para evaluar su error estándar,
La raíz cuadrada debe multiplicarse (aproximadamente) por algún factor para reflejar la falta de independencia en los casos de enfermedad (y este factor puede estar relacionado aproximadamente con el tamaño de los grupos de enfermedades),
La variación entre estos recuentos refleja principalmente la variación en la tasa de enfermedad a lo largo del tiempo en lugar de la incertidumbre (sobre la intensidad de Poisson subyacente).

whuber
fuente

1

Muy reflexivo, respuesta completa! Muchas gracias.

medio pase el

2

No estoy siendo gracioso cuando pregunto: "¿Error estándar de qué?" Puede tomar la media de estas cuatro cifras, y puede calcular el error estándar de esa media. Esa estadística, y un intervalo de confianza resultante, tendría sentido si creyera que está justificado al tratar esas 4 estaciones como representativas de todos los conjuntos de 4 estaciones a las que podría generalizar. En la medida en que esté tan justificado, los datos que tenga serían una muestra aleatoria de la población. El muestreo que mencione implicaría una capa adicional de muestreo; podría llamarlo muestreo por conglomerados, donde cada año constituye un conglomerado.

rolando2
fuente

Error estándar de un recuento

Respuestas: