¿Qué modelo o algoritmo estadístico podría usarse para resolver el problema del cólera John Snow?

23

Estoy interesado en aprender cómo desarrollar una aproximación geográfica de algún tipo de epicentro basado en los datos del brote de cólera John Snow. Qué modelo estadístico podría usarse para resolver un problema de este tipo sin un conocimiento previo de dónde están ubicados los pozos.

Como problema general, tendría a su disposición el tiempo, la ubicación de los puntos conocidos y el sendero del observador. El método que estoy buscando usaría estas tres cosas para estimar el epicentro del "brote".

Cylondude
fuente
2
Los modelos de Kriging se utilizan para la predicción geográfica. Ese podría ser un lugar para comenzar. Para incluir información de tiempo, deberá ir un paso más allá y usar un modelo espacio-temporal (aunque no los he usado).
Genial38
44
@Great Kriging sería difícil de aplicar aquí: no está destinado a estimar extremos, ni es adecuado para la geometría del tiempo de caminata a lo largo de las carreteras que es relevante, ni está bien adaptado para controlar covariables importantes como la densidad de población o cantidad de trabajadores en edificios.
whuber
Este paquete R puede ser de interés github.com/lindbrook/cholera .
David C. Norris el

Respuestas:

25

No para dar una respuesta completa o autorizada, sino solo para estimular ideas, informaré sobre un análisis rápido que hice para un ejercicio de laboratorio en un curso de estadísticas espaciales que estaba enseñando hace diez años. El propósito era ver qué efecto tendría una contabilidad precisa de las posibles rutas de viaje (a pie), en comparación con el uso de distancias euclidianas, en un método exploratorio relativamente simple: una estimación de la densidad del grano. ¿Dónde estaría el pico (o picos) de la densidad en relación con la bomba cuyo mango quitó Snow?

Utilizando una representación ráster de bastante alta resolución (2946 filas por 3160 columnas) del mapa de Snow (correctamente georreferenciado), digitalicé cada uno de los cientos de pequeños ataúdes negros que se muestran en el mapa (encontrando 558 de ellos en 309 direcciones), asignándolos a el borde de la calle correspondiente a su dirección, y resumiendo por dirección en un recuento en cada ubicación.

Mapa de puntos de datos de entrada

Después de un procesamiento de imágenes para identificar las calles y callejones, realicé una difusión gaussiana simple limitada a esas áreas (utilizando medios focales repetidos en un SIG). Este es el KDE.

El resultado habla por sí mismo: apenas necesita una leyenda para explicarlo. (El mapa muestra muchas otras bombas, pero todas se encuentran fuera de esta vista, que se centra en las áreas de mayor densidad).

Mapa de nieve que muestra densidad con color.

whuber
fuente
GUAU. Para resumir; 1. linealizar la ruta de viaje, 2. realizar el suavizado en una dimensión, 3. extender el suavizado en dos dimensiones, 4. promediar el kde a través de los viajes de la ruta?
cylondude
1
El alisado se realizó en 2D, pero restringido a la región que se muestra en color. También hay otras formas de hacerlo, similares a su descripción. Sin embargo, no hay necesidad de promediar los "viajes de ruta" (cualesquiera que sean). Este mapa es interesante en parte porque comparte propiedades de geometrías de una y dos dimensiones.
whuber
Para cada punto A en las calles, cuente el número de pasos entre sí en el punto B entre las ubicaciones de las direcciones. Conecte ese número de pasos en una densidad gaussiana y multiplique ese valor por el número de muertes en B. Sume todos esos productos (es decir, sobre todos los puntos de dirección B) para obtener la densidad del núcleo en el punto A. Haga eso para todos los puntos A en las calles. Esa es la densidad que estamos viendo en cada punto del mapa. ¿Sí?
Hatshepsut
2
@Hatshepsut Esa es una propuesta razonable. Lo que hice fue un poquito diferente. Para cada punto en las ubicaciones de la dirección (fuente), creé una función gaussiana de distancia a pie desde ese punto como usted describe, y luego lo normalicé para que su integral en la cuadrícula de la calle sea igual al recuento en esa ubicación fuente. De esta manera, cada muerte se "extendió" a su vecindario. Estos valores se sumaron en todas las ubicaciones de origen para producir la imagen que se muestra. si
whuber
2
@ Hat ¡No es el caso de que el Gaussiano tenga una unidad integral cuando está limitado a las carreteras y pasarelas! Por lo tanto, se trunca y debe ser renormalizado.
whuber
19

En [1, §3.2], David Freedman sugiere una respuesta esencialmente negativa a su pregunta. Es decir, ningún (mero) modelo estadístico o algoritmo podría resolver el problema de John Snow. El problema de Snow era desarrollar un argumento crítico que apoyara su teoría de que el cólera es una enfermedad infecciosa transmitida por el agua, contra la teoría del miasma prevaleciente de su época. (El Capítulo 3 en [1], titulado “Modelos estadísticos y cuero de calzado” también está disponible en forma publicada anteriormente [2] aquí ).

En estas pocas páginas cortas [1, pp.47–53], gran parte de las cuales es una cita extendida del propio John Snow, Freedman argumenta que "lo que Snow realmente hizo en 1853-1854 es aún más interesante que la fábula [de The Broad Street Pump] ". En cuanto a la clasificación de la evidencia estadística (se discuten otros preliminares como la identificación de casos índice, etc.), Snow explotó la variación natural para efectuar un cuasi-experimento verdaderamente notable.

Resulta que en un momento anterior, había una fuerte competencia entre las compañías de suministro de agua en Londres, y esto resultó en una mezcla espacial del suministro de agua que era (en palabras de Snow) "del tipo más íntimo".

Las tuberías de cada compañía bajan por todas las calles y llegan a casi todos los tribunales y callejones. Algunas casas son suministradas por una compañía y otras por la otra, de acuerdo con la decisión del propietario u ocupante en ese momento cuando las compañías de agua estaban en competencia activa.

...

Como no hay ninguna diferencia en las casas o en las personas que reciben el suministro de las dos compañías de agua, o en cualquiera de las condiciones físicas con las que están rodeadas, es obvio que no se podría haber ideado ningún experimento que pudiera probar más a fondo Efecto del suministro de agua sobre el progreso del cólera que esto, que las circunstancias colocan listo ante el observador.

John Snow

Otro poco de importancia crítica de la 'variación natural', John Snow, explotado en este cuasi-experimento fue que una compañía de agua tuvo su consumo de agua en el Támesis aguas abajo de las descargas de aguas residuales , mientras que el otro tenía unos pocos años antes trasladó su ingesta de aguas arriba . ¡Te dejaré adivinar cuál era cuál de la tabla de datos de John Snow!

                     El | Número de | Cólera | Muertes por
Empresa | casas | muertes | 10,000 casas
-------------------------------------------------- --------
Southwark y Vauxhall | 40,046 | 1263 315
Lambeth 26,107 | 98 37
Resto de Londres | 256,423 | 1422 59

Como Freedman señala, fulminante,

Como una pieza de tecnología estadística, [la tabla anterior] no es de ninguna manera notable. Pero la historia que cuenta es muy persuasiva. La fuerza del argumento resulta de la claridad del razonamiento previo, la reunión de muchas líneas diferentes de evidencia y la cantidad de cuero de zapatos que Snow estaba dispuesto a usar para obtener los datos. [1, p.51]

Otro punto de variación natural explotado por Snow ocurrió en la dimensión del tiempo : la reubicación de la toma de agua mencionada anteriormente ocurrió entre dos epidemias, lo que permitió a Snow comparar el agua de la misma compañía con y sin alcantarillado adicional. (Gracias a Philip B. Stark, un autor de [1], por esta información a través de Twitter . Vea esta conferencia en línea suya).


Este asunto también proporciona un estudio instructivo en el contraste entre deductivismo e inductivismo , como se discute en esta respuesta .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Modelos estadísticos e inferencia causal: un diálogo con las ciencias sociales. Cambridge; Nueva York: Cambridge University Press; 2010

  2. Freedman DA. Modelos estadísticos y calzado de cuero. Metodología Sociológica . 1991; 21: 291-313. doi: 10.2307 / 270939. Texto completo

David C. Norris
fuente
1
+1 por señalar que la simple identificación de un epicentro habría sido insuficiente para resolver el "problema de John Snow" como se indicó. La teoría de Miasma era una de las teorías predominantes en ese momento, como señala David. Para falsificar la teoría del miasma, habría que demostrar que las tasas geográficas no aumentan con la proximidad al río. Un enfoque moderno para este problema podría haber utilizado kriging.
AdamO
Gracias, @AdamO; pero me pregunto cómo Kriging acomodaría la mezcla espacial "íntima" en este caso, que casi parece una afrenta a la continuidad necesaria para aplicar una técnica de interpolación (como entiendo que es Kriging).
David C. Norris el
Tal vez entendí mal las palabras de Snow: mi presunción era que la "mezcla íntima [de las fuentes de suministro de las bombas de agua]" se refería a un diseño de bloque casi perfecto donde, estratificado por la distancia del río, cada estrato concéntrico de bloques de la ciudad tenía al menos algunos bombas de los proveedores A, B, C ... esto tiene que ver con apoyar la teoría de que el agua contaminada causa cólera. Kriging rechazaría la hipótesis del miasma al mostrar que la proximidad al río no está asociada con una mayor incidencia de cólera. Esto es apoyado por personas que riegan en las bombas: miasma no viaja por tubería.
AdamO
2
@ AdamO En realidad, William Farr había estudiado las tasas de mortalidad por cólera (desde 1849) y las comparó con la elevación sobre el río Támesis. La correspondencia entre esas variables es sorprendente y casi perfectamente en línea con las predicciones de la teoría del miasma. Ver Langmuir AD. Bacteriological Review 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). Este artículo señala que incluso en el momento de la muerte del Dr. Snow en 1858, su teoría "no fue aceptada en los círculos oficiales".
whuber
1
Muchas gracias por esas referencias, @whuber. A modo de curación, observo que el artículo de Langmuir es de acceso abierto .
David C. Norris el