Tengo un conjunto de datos de casos incidentes por temporada de una enfermedad rara. Por ejemplo, digamos que hubo 180 casos en la primavera, 90 en el verano, 45 en el otoño y 210 en el invierno. Me cuesta saber si es apropiado adjuntar errores estándar a estos números. Los objetivos de la investigación son inferenciales en el sentido de que estamos buscando un patrón estacional en la incidencia de enfermedades que pueda repetirse en el futuro. Por lo tanto, se siente intuitivamente que debería ser posible adjuntar una medida de incertidumbre a los totales. Sin embargo, no estoy seguro de cómo se calcularía un error estándar en este caso, ya que estamos tratando con recuentos simples en lugar de, por ejemplo, medias o proporciones.
Finalmente, ¿dependería la respuesta de si los datos representan la población de casos (cada caso que ha ocurrido alguna vez) o una muestra aleatoria? Si no me equivoco, generalmente no tiene sentido presentar errores estándar con estadísticas de población, ya que no hay inferencia.
fuente
Respuestas:
La población es el conjunto (hipotético) de todas las personas que están en riesgo de contraer la enfermedad; generalmente, que consiste en todas las personas (o algún subgrupo de personas claramente identificable) que residen en el área de estudio. Es importante definir esta población claramente, porque es el objetivo del estudio y de todas las inferencias hechas a partir de los datos.
Cuando los casos de la enfermedad son independientes (lo que podría ser una hipótesis razonable cuando la enfermedad no se comunica fácilmente entre las personas y no es causada por las condiciones ambientales locales) y son raros, los recuentos deben seguir de cerca una distribución de Poisson . Para esta distribución, una buena estimación de su desviación estándar es la raíz cuadrada del recuento .
Eso es lo más lejos que se puede llegar con estos datos limitados. Estos simples cálculos han revelado que:
Caracterizar a la población es fundamental,
La raíz cuadrada de un conteo es un punto de partida aproximado para evaluar su error estándar,
La raíz cuadrada debe multiplicarse (aproximadamente) por algún factor para reflejar la falta de independencia en los casos de enfermedad (y este factor puede estar relacionado aproximadamente con el tamaño de los grupos de enfermedades),
La variación entre estos recuentos refleja principalmente la variación en la tasa de enfermedad a lo largo del tiempo en lugar de la incertidumbre (sobre la intensidad de Poisson subyacente).
fuente
No estoy siendo gracioso cuando pregunto: "¿Error estándar de qué?" Puede tomar la media de estas cuatro cifras, y puede calcular el error estándar de esa media. Esa estadística, y un intervalo de confianza resultante, tendría sentido si creyera que está justificado al tratar esas 4 estaciones como representativas de todos los conjuntos de 4 estaciones a las que podría generalizar. En la medida en que esté tan justificado, los datos que tenga serían una muestra aleatoria de la población. El muestreo que mencione implicaría una capa adicional de muestreo; podría llamarlo muestreo por conglomerados, donde cada año constituye un conglomerado.
fuente