Flujo de trabajo de visualización a inferencia

9

Brindo apoyo estadístico para un departamento de salud pública. Como puede imaginar, reunimos muchos mapas de manera regular. Para mí, los mapas son solo otro tipo de visualización de datos: útil para tener una idea de los datos, para generar y verificar hipótesis, etc. Pero a menudo no realizamos el modelado real y las pruebas de hipótesis .

¿Cómo va usted / su organización al respecto? ¿Cómo se ve un flujo de trabajo que incluye inferencia? ¿Quién está involucrado? ¿Qué herramientas usas? ¿Cómo se vería idealmente si te salieras con la tuya?

¡Gracias!

EDITAR

Para ser claros, tengo curiosidad por las diferentes estrategias para pasar de datos espaciales a pruebas formales y estadísticas de hipótesis sobre lo que está sucediendo en el mundo. Por ejemplo, supongamos que estoy tratando de dirigir una campaña educativa para aumentar las pruebas de tuberculosis. Yo (personalmente) mapearía los casos de TB contra las covariables de interés (por ejemplo, ingreso medio o porcentaje de residentes nacidos en el extranjero) y trataría de ver si había algún patrón.

Podría o no encontrar ninguno; pero finalmente construiría un modelo para estimar la asociación entre esas covariables y el número de datos demográficos. Este es un paso crítico debido a lo buenos que son los humanos para encontrar patrones donde no existen, o encontrar patrones poco interesantes. Sé cómo hacerlo por mi cuenta, pero tengo curiosidad acerca de cómo las diferentes organizaciones lo institucionalizan (si es que lo hacen).

Matt Parker
fuente
Gran pregunta!
whuber
¿Está diciendo que necesita tener un flujo de trabajo para que si hay un brote de alguna enfermedad para la cual hay un suministro limitado de vacunas, debe ser capaz de demostrar que está distribuyendo de manera óptima la vacuna?
Kirk Kuykendall
En términos generales, solo estoy interesado en cómo las personas incorporan la inferencia estadística en sus procesos de mapeo. Lo que usted describe es ciertamente un escenario posible, pero hay muchos otros y ni siquiera estoy especialmente interesado en las respuestas de la epidemiología.
Matt Parker

Respuestas:

2

Pregunta muy interesante!

En primer lugar, su pregunta alude a lo que yo llamo 'minería de datos' y creo que vale la pena volver a plantear el problema explícitamente, ya que algunas personas aquí no lo han entendido: con cualquier conjunto de datos (no tiene que ser espacial) para lograr un estadísticamente válido relación la convención es que debe ser igual o superior al 95% de probabilidad. Sin embargo, si realiza 20 pruebas, entonces hay muchas posibilidades de que al menos uno de los resultados 'estadísticamente válidos' que obtenga se deba al puro azar. Por lo tanto, es una mala práctica jugar con un conjunto de datos (en GIS sería mapearlo) para visualizar muchas relaciones posibles entre variables, encontrar una interesante y conectar las estadísticas y citar el resultado como si esta fuera la única prueba que habia hecho. Todavía puede usar el resultado, pero debe tener en cuenta la cantidad de pruebas que ha realizado.

¿A eso estabas conduciendo?

Su pregunta parece ser cómo las personas se formalizan para evitar este problema. Mi respuesta es que la opción "en absoluto" que mencionas es común. Los estadísticos médicos (por ejemplo, mi novia) en mi experiencia aplican un estándar de rigor mucho más alto a este tipo de proceso que el que se encuentra en otras áreas, sospecho que todo tipo de mapeo de datos fuera de la salud pública se realiza sin ningún tipo de consideración formal de la problema con las fórmulas estadísticas que se aplican a ciegas sin comprender el proceso correctamente. Me viene a la mente un ejemplo geológico:

Leí un artículo revisado por pares en el que los autores observaron cómo el rendimiento del pozo (cantidad de agua que podría bombearse) se relacionaba con las influencias geológicas y espaciales en África, por ejemplo, el grosor de la capa de grava que se extrajo antes de que se golpeara la roca del lecho. La idea era ayudar a los perforadores de pozos para que pudieran apuntar a las mejores ubicaciones para los pozos. Los autores extrajeron descaradamente los datos combinando todo tipo de variables para ver cuáles obtuvieron un nivel de confianza del 95% y (supongo) ninguno de los revisores había cuestionado la validez de los resultados. Sus conclusiones, por lo tanto, eran completamente poco confiables.

Espero que sea de interes

Trevesy
fuente
¿Puede explicarme un poco más por qué el documento que describe no es confiable? No es obvio para mí por qué este es el caso. Si la relación existe estadísticamente, ¿importa qué 'modelo mental' usaste para lograr identificarla? Entiendo que no explica el mecanismo, pero ese es un tema aparte.
djq