Usar la regresión lineal segmentada como evidencia del límite de la vida humana.

8

Nature publicó este año el siguiente documento: Evidencia de un límite para la esperanza de vida humana 1 , en el que los autores argumentan que sus "resultados sugieren fuertemente que la vida útil máxima de los humanos es fija y está sujeta a restricciones naturales".

Uno de los análisis estadísticos de este documento ya se ha analizado en algunos sitios, incluido el artículo de Nature que está equivocado sobre el límite de 115 años en la vida humana y la evidencia de un límite para la revisión por pares efectiva , ya que apareció en algunos medios populares.

El estudio se basa, entre varias cosas, en datos de bases de datos que detallan la edad máxima anual de muerte. Entre sus análisis, se incluye la siguiente figura :

http://www.nature.com/nature/journal/v538/n7624/images/nature19793-sf6.jpg

Básicamente, los autores argumentan que hay un punto de quiebre, por lo que realizaron una regresión segmentada antes de alrededor de 1995 y después de ese punto en adelante. La regresión se utiliza como evidencia del límite de la vida humana.

¿Tiene sentido sin embargo? Si no, ¿qué método podría emplearse mejor para estudiar estos datos?

[1] Dong, Xiao, Brandon Milholland y Jan Vijg. "Evidencia de un límite a la esperanza de vida humana". Nature 538.7624 (2016): 257-259.

Firebug
fuente
44
La regresión lineal para los extremos parece extraña ... y, evidentemente, usaron una regresión segmentada discontinua, lo cual es inusual ...
kjetil b halvorsen
3
@kjetilbhalvorsen estuvo de acuerdo. Extrema son ejemplos bien conocidos de datos que violan los supuestos normales de manera bastante descabellada. Me pregunto cómo habría funcionado una rutina de máxima probabilidad para los datos de Gumbel ... utilizando la técnica de análisis de supervivencia llamada acertadamente .
AdamO

Respuestas:

2

En primer lugar, extraigamos manualmente los valores de su Figura 2 original y grafiquemos los datos sin ningún color o línea de regresión que sesgue nuestra primera inspección visual de los datos sin procesar.

year <- c(1968, 1970, 1973, 1975, 1978, 1979, 1980, 1981, 1982, 
          1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 
          1992, 1994, 1993, 1995, 1996, 1998, 1997, 1999, 2000, 
          2001, 2002, 2003, 2004, 2005, 2006)
age <- c(111, 111, 112, 111, 111, 110, 111, 113, 113, 113, 111, 
         114, 113, 114, 114, 112, 112, 112, 114, 115, 117, 112, 
         114, 115, 121, 119, 114, 115, 115, 114, 113, 114, 112)

plot(year,age,xlab="Year",
     ylab="Yearly maximum reported age at death (years)", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1960,2010))

Obtenemos:

diagrama de dispersión edad vs año

Y, hagamos lo mismo con los datos de la Figura 6 (como se presenta en la pregunta anterior):

age <- c(113, 109, 109, 110, 113, 109, 110, 111, 111, 111, 
         112, 112, 113, 111, 111, 113, 113, 113, 114, 115, 
         113, 114, 122, 119, 117, 114, 115, 115, 114, 114, 
         115, 116, 115, 115, 114, 114, 116, 116, 117)
year <- c(1954, 1957, 1958, 1958, 1963, 1964, 1965, 1967,
          1968, 1970, 1975, 1972, 1976, 1976, 1977, 1980, 
          1981, 1982, 1984, 1985, 1986, 1987, 1997, 1998, 
          1998, 1999, 2001, 2001, 2002, 2003, 2006, 2006,
          2008, 2007, 2010, 2011, 2011, 2012, 2015)

plot(year,age,xlab="Year",
     ylab="MRAD from GRG", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1950,2020))

ingrese la descripción de la imagen aquí

Parece que un modelo de regresión lineal simple sería el candidato natural que desafía el modelo de punto de cambio menos parsimonioso propuesto por los autores. De hecho, Philipp Berens y Tom Wallis lo hicieron y publicaron su nuevo análisis en github: https://github.com/philippberens/lifespan

Brandmaier
fuente
1
Parece que ha cometido un error al tomar los valores de la figura: faltan datos durante algunos años.
Scortchi - Restablece a Monica
Hmm ... Según Berens & Wallis , los autores explicaron que "los" desaparecidos "se deben al hecho de que las personas MRAD eran más jóvenes que Jeanne Calment, que tenía el récord de la persona más vieja del mundo en ese momento". Entonces, los datos sobre otras personas, cada uno de los cuales fue el mayor en morir en el año de su muerte, se omiten debido a la supervivencia continua de alguien mayor. ¡Suena como una receta para un punto de quiebre!
Scortchi - Restablece a Monica
2
En la primera versión de la publicación, había incluido solo su Figura 2. Agregué datos de la Figura 6, en los que podemos ver la brecha discutida.
Brandmaier
¡Lo siento! Supuse que era la misma cifra que en la pregunta.
Scortchi - Restablece a Monica
4

Creo que la naturaleza de las conclusiones es totalmente inútil. Vemos entre 1950 y 2015 una tendencia creciente seguida de una tendencia decreciente. Es una falacia clásica de aplicar datos que sugieren una hipótesis diferente a la probada y presentarlos como tales. Con estos datos, una regresión segmentada puede interpolar y predecir que en 1995 un máximo local de vida útil fue de aproximadamente 115 años.±cualquier error que estimen a partir de la regresión segmentada. Esto no impide que las tendencias 2020 o 2030 reemplacen ese valor.

  1. El concepto de esperanza de vida natural entra en conflicto con la preponderancia de la investigación en envejecimiento, genética y telómeros.
  2. Se necesita un diseño experimental para abordar la esperanza de vida humana natural utilizando la tecnología "cuerpo en un chip".
  3. 50 años es completamente trivial en el curso de la historia humana. Ha habido muchos puntos en el pasado donde una tendencia al alza en la esperanza de vida fue seguida por una tendencia a la baja.
  4. Datos como los presentados podrían haberse simulado a partir de un modelo no lineal que tiene discontinuidades y / o asíntotas que no se pueden medir.
  5. Dado que el objetivo del modelo es la predicción, se necesitan suposiciones de distribución y la corrección del modelo medio, y (al parecer) no se verificaron ni se cumplieron.
AdamO
fuente