Todavía recuerdo el artículo de Annals of Statistics sobre Impulso de Friedman-Hastie-Tibshirani, y los comentarios sobre esos mismos temas de otros autores (incluidos Freund y Schapire). En ese momento, claramente Boosting fue visto como un avance en muchos aspectos: computacionalmente factible, un método de conjunto, con un rendimiento excelente pero misterioso. Casi al mismo tiempo, SVM llegó a la mayoría de edad, ofreciendo un marco respaldado por una teoría sólida y con muchas variantes y aplicaciones.
Eso fue en los maravillosos años 90. En los últimos 15 años, me parece que muchas estadísticas han sido una operación de limpieza y detalle, pero con pocas vistas realmente nuevas.
Entonces haré dos preguntas:
- ¿Me he perdido algún papel revolucionario / seminal?
- Si no, ¿hay nuevos enfoques que cree que tienen el potencial de cambiar el punto de vista de la inferencia estadística?
Reglas:
- Una respuesta por publicación;
- Se aceptan referencias o enlaces.
PD: Tengo un par de candidatos para avances prometedores. Los publicaré más tarde.
Respuestas:
La respuesta es tan simple que tengo que escribir todo este galimatías para hacer un CV. Permítanme publicarlo: R
fuente
No estoy seguro de si lo llamarían un "avance" per se, pero la publicación de Probability Theory: The Logic of Science por Edwin Jaynes y Larry Bretthorst puede ser notable. Algunas de las cosas que hacen aquí son:
1) muestra la equivalencia entre algunos esquemas iterativos de "ajuste estacional" y la integración bayesiana de "parámetros molestos".
2) resolvió la llamada "paradoja de la marginación", que algunos pensaban que era la "muerte del bayesianismo" y la "muerte de los antecedentes impropios" de otros.
3) la idea de que la probabilidad describe un estado de conocimiento acerca de que una proposición es verdadera o falsa, en lugar de describir una propiedad física del mundo .
Los primeros tres capítulos de este libro están disponibles de forma gratuita aquí .
fuente
Como estadístico aplicado y autor de software menor ocasional, diría:
WinBUGS (lanzado en 1997)
Está basado en BUGS, que se lanzó hace más de 15 años (1989), pero fue WinBUGS el que hizo que el análisis bayesiano de modelos realistas complejos estuviera disponible para una base de usuarios mucho más amplia. Ver, por ejemplo , Lunn, Spiegelhalter, Thomas y Best (2009) (y la discusión sobre esto en Estadísticas en medicina vol. 28 número 25 ).
fuente
Stan
está fuera?fuente
La introducción de la función de pérdida de "discrepancia intrínseca" y otras funciones de pérdida "sin parametrización" en la teoría de la decisión. Tiene muchas otras propiedades "agradables", pero creo que la mejor es la siguiente:
¡Creo que esto es genial! (por ejemplo, la mejor estimación de las probabilidades de log es log (p / (1-p)), la mejor estimación de la varianza es el cuadrado de la desviación estándar, etc., etc.)
¿La captura? ¡La discrepancia intrínseca puede ser bastante difícil de resolver! (¡involucra función min (), una razón de probabilidad e integrales!)
El "contragolpe"? ¡puede "reorganizar" el problema para que sea más fácil de calcular!
¿El "contraataque"? descubrir cómo "reorganizar" el problema puede ser difícil.
Aquí hay algunas referencias que conozco que usan esta función de pérdida. Si bien me gustan mucho las partes de "estimación intrínseca" de estos documentos / diapositivas, tengo algunas reservas sobre el enfoque de "referencia previa" que también se describe.
Prueba de hipótesis bayesianas: un enfoque de referencia
Estimación intrínseca
Comparación de medias normales: nuevos métodos para un viejo problema
Objetivo integrado de estimación bayesiana y prueba de hipótesis
fuente
Creo que solo están dentro de los 15 años, los algoritmos para controlar la tasa de descubrimiento falso . Me gusta el enfoque del 'valor q'.
fuente
Agregando mis propios 5 centavos, creo que el avance más significativo de los últimos 15 años ha sido la detección comprimida. LARS, LASSO y una gran cantidad de otros algoritmos pertenecen a este dominio, ya que la detección comprimida explica por qué funcionan y los extiende a otros dominios.
fuente
Algo que tiene muy poco que ver con las estadísticas en sí, pero que ha sido enormemente beneficioso: el aumento de la potencia de fuego de las computadoras, haciendo que los conjuntos de datos más grandes y el análisis estadístico más complejo sean más accesibles, especialmente en los campos aplicados.
fuente
El algoritmo de expectativa-propagación para la inferencia bayesiana, especialmente en la clasificación del proceso gaussiano, fue sin duda un avance significativo, ya que proporciona un método eficiente de aproximación analítica que funciona casi tan bien como los enfoques basados en muestreo computacionalmente costosos (a diferencia de la aproximación de Laplace habitual). Vea el trabajo de Thomas Minka y otros en la hoja de ruta del EP
fuente
Creo que la "inferencia bayesiana aproximada para modelos gaussianos latentes utilizando aproximaciones de Laplace anidadas integradas" de H. Rue et. Al (2009) es un candidato potencial.
fuente
En mi opinión, todo lo que le permite ejecutar nuevos modelos a gran escala es un gran avance. La interpolación de kernel para procesos gaussianos estructurados escalables (KISS-GP) podría ser un candidato (aunque la idea es nueva y no ha habido muchas implementaciones de la idea presentada).
fuente
Si bien es un poco más general que las estadísticas, creo que ha habido avances importantes en los métodos de investigación reproducible (RR) . Por ejemplo, el desarrollo de R
knittr
ySweave
paquetes y cuadernos "R Markdown", las mejoras de LyX y LaTeX han contribuido significativamente al intercambio de datos, la colaboración, la verificación / validación e incluso el avance estadístico adicional. Los artículos referidos en revistas estadísticas, médicas y epidemiológicas rara vez permitían reproducir fácilmente los resultados antes de la aparición de estos métodos / tecnologías de investigación reproducibles. Ahora, varias revistas requieren investigación reproducible y muchos estadísticos están utilizando RR y código de publicación, sus resultados y fuentes de datos en la web. Esto también ha ayudado a fomentar las disciplinas de la ciencia de datos y ha hecho que el aprendizaje estadístico sea más accesible.fuente
En mi opinión, artículo publicado en 2011 en la revista Science. Los autores proponen una medida de asociación muy interesante entre un par de variables aleatorias que funciona bien en muchas situaciones donde fallan medidas similares (Pearson, Spearman, Kendall). Muy buen papel. Aquí está.
fuente