La evidencia del calentamiento global provocado por el hombre alcanza el 'estándar de oro': ¿cómo lo hicieron?

Este mensaje en un artículo de Reuter del 25.02.2019 está actualmente en todas las noticias:

La evidencia del calentamiento global provocado por el hombre alcanza el 'estándar de oro'

[Los científicos] dijeron que la confianza de que las actividades humanas estaban elevando el calor en la superficie de la Tierra había alcanzado un nivel de "cinco sigma", un indicador estadístico que significa que solo hay una posibilidad entre un millón de que la señal aparezca si hubiera sin calentamiento

Creo que esto se refiere a este artículo "Celebrando el aniversario de tres eventos clave en la ciencia del cambio climático" que contiene una trama, que se muestra esquemáticamente a continuación (Es un boceto porque no pude encontrar una imagen de código abierto para un original, similar Las imágenes gratuitas se encuentran aquí ). Otro artículo del mismo grupo de investigación, que parece ser una fuente más original, está aquí (pero utiliza una significación del 1% en lugar de ). $5\sigma$

La trama presenta mediciones de tres grupos de investigación diferentes: Sistemas de detección remota, el Centro de aplicaciones e investigación de satélites y la Universidad de Alabama en Huntsville.

El gráfico muestra tres curvas ascendentes de relación señal / ruido en función de la longitud de la tendencia.

Entonces, de alguna manera, los científicos han medido una señal antropogénica de calentamiento global (¿o cambio climático?) A un nivel de , que aparentemente es un estándar de evidencia científica . $5\sigma$

Para mí, este gráfico, que tiene un alto nivel de abstracción, plantea muchas preguntas , y en general me pregunto acerca de la pregunta '¿Cómo hicieron esto?' . ¿Cómo se explica este experimento en palabras simples (pero no de manera abstracta) y también explicamos el significado de la nivel? $^{\dagger}$ $5\sigma$

Hago esta pregunta aquí porque no quiero una discusión sobre el clima. En cambio, quiero respuestas con respecto al contenido estadístico y especialmente para aclarar el significado de dicha declaración que está usando / reclamando . $5 \sigma$

$^\dagger$ ¿Cuál es la hipótesis nula? ¿Cómo organizaron el experimento para obtener una señal antropogénica ? ¿Cuál es el tamaño del efecto de la señal? ¿Es solo una pequeña señal y ahora solo medimos esto porque el ruido está disminuyendo o la señal está aumentando? ¿Qué tipo de suposiciones se hacen para crear el modelo estadístico mediante el cual determinan el cruce de un umbral de 5 sigma (independencia, efectos aleatorios, etc.)? ¿Por qué las tres curvas para los diferentes grupos de investigación son diferentes, tienen un ruido diferente o tienen diferentes señales, y en el caso de este último, qué significa eso con respecto a la interpretación de la probabilidad y la validez externa?

p-value intuition application communication climate Sexto Empírico
fuente

@MattF. Mi expectativa es que será posible hacer una exposición simple que explique el concepto estadístico del umbral de

que se ha utilizado aquí (al menos los físicos de partículas de alta energía, que también usan discrepancias / efectos

para describir la relación señal / ruido). en recuentos de eventos, no tengo problema con esto). Con simple me refiero a algo despojado de la jerga climatológica, pero lo suficientemente sofisticado como para contener la esencia. Digamos, sería algo escrito para estadísticos y matemáticos profesionales de modo que puedan entender los

aquí.

5 σ

$5\sigma$

σ

$\sigma$

5 σ

$5\sigma$

Sextus Empiricus

Para enfatizar el contraste con la física de alta energía: para este campo, los estadísticos pueden entender que el nivel de

es básicamente sin sentido y la barra se establece alta porque el cálculo es técnicamente incorrecto (1. el efecto de buscar en otro lado 2. suposiciones incorrectas sobre la distribución del error ignorando los efectos sistemáticos 3. haciendo implícitamente un análisis bayesiano, "las afirmaciones extraordinarias requieren evidencia extraordinaria").

5 σ

$5\sigma$

Sextus Empiricus

La pregunta es cuánto están presentes estos tres efectos en el caso de este artículo sobre el calentamiento global hecho por el hombre. Creo que es importante aclarar esto, desmitificar las afirmaciones de ciencia. Es muy común simplemente arrojar algunos números a un argumento para que suene riguroso, y la mayoría de la gente deja de cuestionarlo.

Sextus Empiricus

¿Has visto esta crítica: judithcurry.com/2019/03/01/… ?

Robert Long

Casualmente, estuve leyendo estos documentos hace solo unos días, y ahora noté tu nueva recompensa. Podría escribir algo ahora.

ameba dice Reinstate Monica el

Respuestas:

No siempre se trata de pruebas estadísticas. También puede ser sobre teoría de la información.

El término 5σ es lo que dice que es: una relación de "señal" a "ruido". En las pruebas de hipótesis tenemos una estimación de un parámetro de distribución y un error estándar de la estimación. La primera es una "señal", la segunda es "ruido", y la relación de las estadísticas y su error estándar son las estadísticas z, las estadísticas t, las estadísticas F, lo que sea.

Sin embargo, la relación señal / ruido es útil en todas partes donde recibimos / percibimos cierta información a través de algún ruido. Como explica el enlace citado

La relación señal / ruido (a menudo abreviada SNR o S / N) es una medida utilizada en ciencia e ingeniería para cuantificar cuánto el ruido corrompe la señal.

En nuestro caso, la "señal" es el cambio real medido en la temperatura de algunos estratos de la atmósfera y el "ruido" son predicciones del cambio de las simulaciones sin las influencias antropogénicas conocidas. Sucede que estas simulaciones predijeron una temperatura más o menos estacionaria con una cierta desviación estándar σ.

Ahora volvamos a las estadísticas. Todas las estadísticas de prueba (z, t, F) son las proporciones de la estimación a su error estándar. Entonces, cuando los estadísticos escuchamos algo así como S / N, pensamos en una estadística z y la equipamos con la probabilidad. Los climatólogos obviamente no hacen esto (no se menciona la probabilidad en ninguna parte del artículo ). Simplemente descubren que el cambio es "aproximadamente de tres a ocho" veces mayor de lo esperado, el S / N es de 3σ a 8σ.

Lo que informa el artículo es que hicieron dos tipos de simulaciones: una con las influencias antropogénicas conocidas incluidas en el modelo y las otras con las influencias antropogénicas conocidas excluidas. Las primeras simulaciones fueron similares a los datos satelitales reales medidos, mientras que las segundas estaban muy lejos. Si esto es probable o no, no lo dicen y obviamente no les importa.

Para responder otras preguntas. No establecieron ningún experimento, hicieron simulaciones según sus modelos. Por lo tanto, no existe una hipótesis nula explícita, excepto la obvia, que el cambio es similar al esperado (S / N es 1).

El tamaño del efecto de la señal es una diferencia entre los datos reales y las simulaciones. Es una señal 5 veces más grande de lo esperado (cinco veces la variabilidad habitual de las temperaturas). Parece que el ruido está disminuyendo debido a la cantidad y posiblemente a la precisión de las mediciones.

Contrariamente a nuestras expectativas de los "científicos reales", no existe un modelo estadístico del que podamos hablar, por lo que la pregunta sobre las suposiciones hechas es vacía. La única suposición es que sus modelos les permiten predecir el clima. Esto es tan válido como decir que los modelos utilizados para los pronósticos del tiempo son sólidos.

Hay mucho más que tres curvas. Son los resultados de simulación de diferentes modelos. Simplemente tienen que ser diferentes. Y sí, tienen un ruido diferente. La señal, en la medida en que es diferente, son diferentes conjuntos de medidas, que tienen su error de medición, y también deberían ser diferentes. ¿Qué significa esto con respecto a la interpretación? La interpretación de probabilidad de la S / N no es buena. Sin embargo, la validez externa de los hallazgos es sólida. Simplemente afirman que los cambios climáticos en el período de 1979 a 2011 son comparables a las simulaciones cuando se tienen en cuenta las influencias antropogénicas conocidas y aproximadamente cinco veces más grandes que las calculadas por simulación cuando los factores antropogénicos conocidos se excluyen del modelo.

Entonces queda una pregunta. Si los climatólogos les pidieran a los estadísticos que hicieran un modelo, ¿cuál debería ser? En mi opinión, algo en la línea del movimiento browniano.

Nino Rode
fuente

Entonces, ¿qué constituye la "señal", cuál es la naturaleza del "ruido" y a qué procesos invisibles podemos atribuirla?

Josh

Sory @ Josh, presioné prematuramente el botón de enviar. Ahora puedes leer mi respuesta completa. Más o menos, la "señal" son las medidas reales, y el "ruido" son los resultados de las simulaciones cuando los factores antropogénicos conocidos se excluyen del modelo. Y en mi opinión esto es muy poco estadístico ...

Nino Rode

n σ

$n\sigma$

@NinoRode Tal vez me estoy perdiendo algo, pero dado que el modelo de "ruido" sin influencias antropogénicas es evidentemente incorrecto debido al hecho de que la temperatura media ha aumentado según las mediciones empíricas , ¿cómo proporciona ese modelo una línea de base relevante? Dado que se entiende que las temperaturas fluctúan debido a procesos naturales ( en.wikipedia.org/wiki/Little_Ice_Age ) además de los antropogénicos, ¿cuál es la base para suponer que el modelo de "ruido" debería tener un aumento de temperatura medio cero sobre el periodo de análisis?

Josh

@Scott, el problema con la ingeniosa caricatura es que no se muestra ruido a través de la serie temporal porque las mediciones probablemente no se refinan lo suficiente como para determinar cuál era la temperatura en un siglo determinado, y mucho menos un año específico. Por lo tanto, se ve suave y gradual hasta la llegada de los dispositivos de medición modernos. En mecánica de fluidos esto sería como comparar una observación instantánea de un campo de velocidad con un promedio de Reynolds; No es una comparación apropiada. A menos que realmente piense que hubo esencialmente cero volatilidad en las temperaturas globales hasta que nació Greta Thunberg. :)

Josh

Advertencia: NO soy un experto en climatología, este no es mi campo. Por favor, tenga esto en mente. Correcciones de bienvenida.

La cifra a la que se refiere proviene de un artículo reciente de Santer et al. 2019, Celebrando el aniversario de tres eventos clave en la ciencia del cambio climático de Nature Climate Change . No es un trabajo de investigación, sino un breve comentario. Esta figura es una actualización simplificada de una figura similar de un artículo anterior de Science de los mismos autores, Santer et al. 2018, Influencia humana en el ciclo estacional de temperatura troposférica . Aquí está la cifra de 2019:

Y aquí está la cifra de 2018; el panel A corresponde a la cifra de 2019:

Aquí intentaré explicar el análisis estadístico detrás de esta última figura (los cuatro paneles). El artículo de Science es de acceso abierto y bastante legible; los detalles estadísticos están, como de costumbre, ocultos en los Materiales complementarios. Antes de discutir las estadísticas como tales, uno tiene que decir algunas palabras sobre los datos de observación y las simulaciones (modelos climáticos) utilizados aquí.

1. Datos

Las abreviaturas RSS, UAH y STAR se refieren a reconstrucciones de la temperatura troposférica a partir de las mediciones satelitales. La temperatura troposférica se ha monitoreado desde 1979 utilizando satélites meteorológicos: consulte Wikipedia en mediciones de temperatura de MSU . Desafortunadamente, los satélites no miden directamente la temperatura; miden otra cosa, a partir de la cual se puede inferir la temperatura. Además, se sabe que sufren diversos sesgos dependientes del tiempo y problemas de calibración. Esto hace que la reconstrucción de la temperatura real sea un problema difícil. Varios grupos de investigación realizan esta reconstrucción, siguiendo metodologías algo diferentes y obteniendo resultados finales algo diferentes. RSS, UAH y STAR son estas reconstrucciones. Para citar Wikipedia,

Los satélites no miden la temperatura. Miden las radiaciones en varias bandas de longitud de onda, que luego deben invertirse matemáticamente para obtener inferencias indirectas de temperatura. Los perfiles de temperatura resultantes dependen de los detalles de los métodos que se utilizan para obtener temperaturas de las radiaciones. Como resultado, diferentes grupos que han analizado los datos del satélite han obtenido diferentes tendencias de temperatura. Entre estos grupos se encuentran los Sistemas de Teledetección (RSS) y la Universidad de Alabama en Huntsville (UAH). La serie de satélites no es completamente homogénea: el registro se construye a partir de una serie de satélites con instrumentación similar pero no idéntica. Los sensores se deterioran con el tiempo, y las correcciones son necesarias para la deriva del satélite en órbita.

Hay mucho debate sobre qué reconstrucción es más confiable. Cada grupo actualiza sus algoritmos de vez en cuando, cambiando toda la serie de tiempo reconstruida. Por eso, por ejemplo, RSS v3.3 difiere de RSS v4.0 en la figura anterior. En general, AFAIK está bien aceptado en el campo de que las estimaciones de la temperatura de la superficie global son más precisas que las mediciones satelitales. En cualquier caso, lo que importa para esta pregunta es que hay varias estimaciones disponibles de la temperatura troposférica resuelta espacialmente, desde 1979 hasta ahora, es decir, en función de la latitud, la longitud y el tiempo.

$T(\mathbf x, t)$

2. Modelos

Existen varios modelos climáticos que pueden ejecutarse para simular la temperatura troposférica (también en función de la latitud, la longitud y el tiempo). Estos modelos toman la concentración de CO2, la actividad volcánica, la irradiancia solar, la concentración de aerosoles y varias otras influencias externas como entrada, y producen la temperatura como salida. Estos modelos pueden ejecutarse durante el mismo período de tiempo (1979 - ahora), utilizando las influencias externas medidas reales. Las salidas se pueden promediar para obtener la salida media del modelo.

También se pueden ejecutar estos modelos sin ingresar los factores antropogénicos (gases de efecto invernadero, aerosoles, etc.), para tener una idea de las predicciones de modelos no antropogénicos. Tenga en cuenta que todos los demás factores (solar / volcánico / etc.) fluctúan alrededor de sus valores medios, por lo que la producción del modelo no antropogénico es estacionaria por construcción. En otras palabras, los modelos no permiten que el clima cambie naturalmente, sin ninguna causa externa específica.

$M(\mathbf x,t)$ $N(\mathbf x, t)$

$z$

$T(\mathbf x, t)$ $M(\mathbf x, t)$ $N(\mathbf x, t)$

$T(\mathbf x, i)$ $M(\mathbf x, i)$ $N(\mathbf x, i)$ $i$

Media anual: simplemente temperatura promedio durante todo el año.
Ciclo estacional anual: la temperatura de verano menos la temperatura de invierno.
$\mathbf x$ $i$
Ciclo estacional anual con media global restada: lo mismo que (2) pero restando nuevamente el promedio global.

$M(\mathbf x, i)$ $F(\mathbf x)$

$T(\mathbf x, i)$ $F(\mathbf x)$

Z (i) = \sum_{x} T (x, i) F (x),

$Z(i) = \sum_\mathbf x T(\mathbf x, i) F(\mathbf x),$

β

$\beta$

z

$z$

W (i) = \sum_{x} N (x, i) F (x),

$W(i) = \sum_\mathbf x N(\mathbf x, i) F(\mathbf x),$

β_{n o i s e}

$\beta_\mathrm{noise}$

β_{n o i s e}

$\beta_\mathrm{noise}$

z

$z$ -estadística:

z = \frac{β}{{Var}^{1 / 2} [β_{n o i s e}]} .

$z = \frac{\beta}{\operatorname{Var}^{1/2}[\beta_\mathrm{noise}]}.$

$z$

4. Algunos comentarios

La primera huella digital (panel A) es, en mi humilde opinión, la más trivial. Simplemente significa que las temperaturas observadas crecen monotónicamente, mientras que las temperaturas bajo la hipótesis nula no lo hacen. No creo que se necesite toda esta maquinaria complicada para llegar a esta conclusión. La serie de tiempo promedio global de temperatura troposférica más baja (variante RSS) se ve así :

y claramente hay una tendencia muy significativa aquí. No creo que uno necesite ningún modelo para ver eso.

$z$

ameba dice Reinstate Monica
fuente

(1) Esta es una gran respuesta! Si no le importa: se puede ampliar en el escalón "PCA puntos en el tiempo"? No entiendo la idea detrás de hacer un PCA allí en vez de analizar cada dimensión por separado.

MKT - Restablecer Mónica

β_{noise}

$\beta_{\text {noise}}$

N (x, i)

$N(x,i)$

F (x)

$F(x)$

T (x, i)

$T(x,i)$

F (x)

$F(x)$

N (x, 2019)

$N(x, 2019)$

Sí, esto puede ser discutido de todo tipo de ángulos. Personalmente, estoy a menudo sin mucho juicio sobre cualquier lado, pero me gusta que los argumentos son nítidas y claras. La presentación de informes sobre el clima es actualmente muy difusa.

Sexto Empírico

F (x)

$F(x)$