¿Cuáles son los avances en estadísticas de los últimos 15 años?

56

Todavía recuerdo el artículo de Annals of Statistics sobre Impulso de Friedman-Hastie-Tibshirani, y los comentarios sobre esos mismos temas de otros autores (incluidos Freund y Schapire). En ese momento, claramente Boosting fue visto como un avance en muchos aspectos: computacionalmente factible, un método de conjunto, con un rendimiento excelente pero misterioso. Casi al mismo tiempo, SVM llegó a la mayoría de edad, ofreciendo un marco respaldado por una teoría sólida y con muchas variantes y aplicaciones.

Eso fue en los maravillosos años 90. En los últimos 15 años, me parece que muchas estadísticas han sido una operación de limpieza y detalle, pero con pocas vistas realmente nuevas.

Entonces haré dos preguntas:

  1. ¿Me he perdido algún papel revolucionario / seminal?
  2. Si no, ¿hay nuevos enfoques que cree que tienen el potencial de cambiar el punto de vista de la inferencia estadística?

Reglas:

  1. Una respuesta por publicación;
  2. Se aceptan referencias o enlaces.

PD: Tengo un par de candidatos para avances prometedores. Los publicaré más tarde.

gappy
fuente
55
Ver stats.stackexchange.com/q/1883/159 para una pregunta similar (que se cerró como subjetiva y argumentativa).
Rob Hyndman
1
Estaba a punto de sacar el mismo hilo. Huele a duplicado.
Dirk Eddelbuettel
1
Es subjetivo, claro, pero ¿aún no está bien para CW?
Christopher Aden
1
Eso fue en una escala de tiempo más larga. No creo que sea un duplicado. En cuanto a la discusión, depende de los participantes. No estoy tratando de otorgar un trofeo aquí, solo para estar al tanto de los documentos seminales que yo y otros hemos perdido. Como no hay una respuesta correcta, estoy a favor de un CW. Me parece interesante que hasta ahora todas las respuestas estén sobre innovaciones bayesianas.
Gappy
2
Esto parece una publicación que puede ser eximida. Creo que esto puede permanecer abierto.
gung - Restablece a Monica

Respuestas:

43

La respuesta es tan simple que tengo que escribir todo este galimatías para hacer un CV. Permítanme publicarlo: R

hans0l0
fuente
14

No estoy seguro de si lo llamarían un "avance" per se, pero la publicación de Probability Theory: The Logic of Science por Edwin Jaynes y Larry Bretthorst puede ser notable. Algunas de las cosas que hacen aquí son:

1) muestra la equivalencia entre algunos esquemas iterativos de "ajuste estacional" y la integración bayesiana de "parámetros molestos".

2) resolvió la llamada "paradoja de la marginación", que algunos pensaban que era la "muerte del bayesianismo" y la "muerte de los antecedentes impropios" de otros.

3) la idea de que la probabilidad describe un estado de conocimiento acerca de que una proposición es verdadera o falsa, en lugar de describir una propiedad física del mundo .

Los primeros tres capítulos de este libro están disponibles de forma gratuita aquí .

probabilidadislogica
fuente
2
Desafortunadamente, la resolución de Jaynes de la paradoja de la marginación fue errónea. Vea las Notas de Kevin Van Horn sobre el Tratamiento de la paradoja de la marginalización de Jaynes , disponible aquí .
Cyan
1
@cyan: tenga en cuenta que si bien su resolución fue defectuosa en algunas áreas, sus principios subyacentes lo resolvieron. La regla general de los previos apropiados y sus límites convergentes significa que el mp no puede surgir. La falla probablemente se deba a que el libro no se terminó durante la mayor parte de la segunda parte. Me gusta la resolución [aquí] ( arxiv.org/abs/math/0310006 ) mejor que la versión ksvh. más corto y más general.
probabilidadislogica
14

Como estadístico aplicado y autor de software menor ocasional, diría:

WinBUGS (lanzado en 1997)

Está basado en BUGS, que se lanzó hace más de 15 años (1989), pero fue WinBUGS el que hizo que el análisis bayesiano de modelos realistas complejos estuviera disponible para una base de usuarios mucho más amplia. Ver, por ejemplo , Lunn, Spiegelhalter, Thomas y Best (2009) (y la discusión sobre esto en Estadísticas en medicina vol. 28 número 25 ).

parada
fuente
2
¿Cómo cambia esto ahora que Stanestá fuera?
Ari B. Friedman
13

kii

shabbychef
fuente
¿Alguna vez has usado LARS? Lo pregunto porque nunca había oído hablar de eso antes y suena realmente interesante. El artículo original es un poco largo (93 páginas), así que me gustaría obtener alguna opinión antes de profundizar en él.
Tomek Tarczynski
@Tomek Tarczynski: Lo he usado una pequeña cantidad. Hay un paquete en Matlab (estoy seguro de que hay uno o más en R), que he usado. También proporciona un PCA escaso, que me interesaba más. Admito que solo hojeé el periódico. ;)
shabbychef
11

La introducción de la función de pérdida de "discrepancia intrínseca" y otras funciones de pérdida "sin parametrización" en la teoría de la decisión. Tiene muchas otras propiedades "agradables", pero creo que la mejor es la siguiente:

θθeθg(θ)g(θe)

¡Creo que esto es genial! (por ejemplo, la mejor estimación de las probabilidades de log es log (p / (1-p)), la mejor estimación de la varianza es el cuadrado de la desviación estándar, etc., etc.)

¿La captura? ¡La discrepancia intrínseca puede ser bastante difícil de resolver! (¡involucra función min (), una razón de probabilidad e integrales!)

El "contragolpe"? ¡puede "reorganizar" el problema para que sea más fácil de calcular!

¿El "contraataque"? descubrir cómo "reorganizar" el problema puede ser difícil.

Aquí hay algunas referencias que conozco que usan esta función de pérdida. Si bien me gustan mucho las partes de "estimación intrínseca" de estos documentos / diapositivas, tengo algunas reservas sobre el enfoque de "referencia previa" que también se describe.

Prueba de hipótesis bayesianas: un enfoque de referencia

Estimación intrínseca

Comparación de medias normales: nuevos métodos para un viejo problema

Objetivo integrado de estimación bayesiana y prueba de hipótesis

probabilidadislogica
fuente
11

Creo que solo están dentro de los 15 años, los algoritmos para controlar la tasa de descubrimiento falso . Me gusta el enfoque del 'valor q'.

shabbychef
fuente
1
q
9

Agregando mis propios 5 centavos, creo que el avance más significativo de los últimos 15 años ha sido la detección comprimida. LARS, LASSO y una gran cantidad de otros algoritmos pertenecen a este dominio, ya que la detección comprimida explica por qué funcionan y los extiende a otros dominios.

alegre
fuente
1
He mirado la detección comprimida y, como no estadístico, me pregunto: "¿No es esto solo una proyección aleatoria inversa?". Sé que "solo" es una palabra fácil de usar, pero parece que las personas están dejando de lado lo que parecen conexiones obvias entre la proyección aleatoria (alrededor de 2000) y la detección comprimida (alrededor de 2004).
Wayne
9

Algo que tiene muy poco que ver con las estadísticas en sí, pero que ha sido enormemente beneficioso: el aumento de la potencia de fuego de las computadoras, haciendo que los conjuntos de datos más grandes y el análisis estadístico más complejo sean más accesibles, especialmente en los campos aplicados.

Fomite
fuente
8

El algoritmo de expectativa-propagación para la inferencia bayesiana, especialmente en la clasificación del proceso gaussiano, fue sin duda un avance significativo, ya que proporciona un método eficiente de aproximación analítica que funciona casi tan bien como los enfoques basados ​​en muestreo computacionalmente costosos (a diferencia de la aproximación de Laplace habitual). Vea el trabajo de Thomas Minka y otros en la hoja de ruta del EP

Dikran Marsupial
fuente
EP parece genial (aunque todavía me duele la cabeza). ¿Todavía carece de garantías generales de convergencia?
conjugateprior
2

Si bien es un poco más general que las estadísticas, creo que ha habido avances importantes en los métodos de investigación reproducible (RR) . Por ejemplo, el desarrollo de R knittrySweavepaquetes y cuadernos "R Markdown", las mejoras de LyX y LaTeX han contribuido significativamente al intercambio de datos, la colaboración, la verificación / validación e incluso el avance estadístico adicional. Los artículos referidos en revistas estadísticas, médicas y epidemiológicas rara vez permitían reproducir fácilmente los resultados antes de la aparición de estos métodos / tecnologías de investigación reproducibles. Ahora, varias revistas requieren investigación reproducible y muchos estadísticos están utilizando RR y código de publicación, sus resultados y fuentes de datos en la web. Esto también ha ayudado a fomentar las disciplinas de la ciencia de datos y ha hecho que el aprendizaje estadístico sea más accesible.

EstadísticasEstudiante
fuente
1

En mi opinión, artículo publicado en 2011 en la revista Science. Los autores proponen una medida de asociación muy interesante entre un par de variables aleatorias que funciona bien en muchas situaciones donde fallan medidas similares (Pearson, Spearman, Kendall). Muy buen papel. Aquí está.

Miroslav Sabo
fuente
El enlace parece estar roto.
dsaxton
También se puede encontrar aquí: ncbi.nlm.nih.gov/pmc/articles/PMC3325791/pdf/nihms358982.pdf
Miroslav Sabo