¿Cuáles son los 'grandes problemas' en las estadísticas?

77

Las matemáticas tienen sus famosos Problemas del Milenio (e, históricamente, los 23 de Hilbert ), preguntas que ayudaron a dar forma a la dirección del campo.

Sin embargo, tengo poca idea de cuáles serían las hipótesis de Riemann y las estadísticas de P vs. NP.

Entonces, ¿cuáles son las preguntas abiertas generales en las estadísticas?

Editado para agregar: Como un ejemplo del espíritu general (si no del todo específico) de la respuesta que estoy buscando, encontré una conferencia inspirada en "Hilbert's 23" de David Donoho en la conferencia "Desafíos matemáticos del siglo XXI": Análisis de datos de alta dimensión: las maldiciones y bendiciones de la dimensionalidad

Por lo tanto, una respuesta potencial podría hablar sobre big data y por qué es importante, los tipos de desafíos estadísticos que plantean los datos de alta dimensión y los métodos que deben desarrollarse o las preguntas que deben responderse para ayudar a resolver el problema.

raegtin
fuente
55
Gracias por publicar esto. Es una discusión importante (y potencialmente inspiradora).
whuber

Respuestas:

48

Una gran pregunta debería involucrar cuestiones clave de la metodología estadística o, debido a que las estadísticas se refieren exclusivamente a las aplicaciones, debería referirse a cómo se utiliza la estadística con problemas importantes para la sociedad.

Esta caracterización sugiere que se debe incluir lo siguiente en cualquier consideración de grandes problemas:

  • La mejor manera de llevar a cabo ensayos de drogas . Actualmente, la prueba de hipótesis clásica requiere muchas fases formales de estudio. En fases posteriores (confirmatorias), los problemas económicos y éticos cobran gran importancia. ¿Podemos hacerlo mejor? ¿Tenemos que poner a cientos o miles de personas enfermas en grupos de control y mantenerlos allí hasta el final de un estudio, por ejemplo, o podemos encontrar mejores maneras de identificar los tratamientos que realmente funcionan y entregarlos a los miembros del ensayo (y otros) antes?

  • Lidiando con el sesgo de publicación científica . Los resultados negativos se publican mucho menos simplemente porque simplemente no alcanzan un valor p mágico. Todas las ramas de la ciencia necesitan encontrar mejores formas de sacar a la luz resultados científicamente importantes, no solo estadísticamente significativos . (El problema de las comparaciones múltiples y el manejo de datos de alta dimensión son subcategorías de este problema).

  • Investigando los límites de los métodos estadísticos y sus interfaces con el aprendizaje automático y la cognición automática . Los avances inevitables en la tecnología informática harán que la verdadera IA sea accesible en nuestras vidas. ¿Cómo vamos a programar cerebros artificiales? ¿Qué papel podrían tener el pensamiento estadístico y el aprendizaje estadístico en la creación de estos avances? ¿Cómo pueden ayudar los estadísticos a pensar sobre la cognición artificial, el aprendizaje artificial, explorar sus limitaciones y hacer avances?

  • Desarrollar mejores formas de analizar datos geoespaciales . A menudo se afirma que la mayoría, o la gran mayoría, de las bases de datos contienen referencias de ubicación. Pronto, muchas personas y dispositivos se ubicarán en tiempo real con tecnologías GPS y de telefonía celular. Los métodos estadísticos para analizar y explotar datos espaciales están realmente en su infancia (y parecen relegarse a SIG y software espacial que generalmente usan los no estadísticos).

whuber
fuente
1
¿De qué maneras las personas intentan resolver estos problemas?
raegtin
3
@grautur: Son cuatro preguntas excelentes (además de muchas más, porque su respuesta se aplica a cada respuesta en este hilo). Todos merecen respuestas elaboradas, pero obviamente no hay espacio para eso aquí: una pregunta a la vez, ¡por favor!
whuber
3
Con respecto a la primera viñeta (ensayos farmacológicos): incluso las personas que de otro modo no estarían interesadas en la experimentación médica deberían leer el artículo de NYTimes New Drugs Stir Debate sobre reglas básicas de ensayos clínicos ( nytimes.com/2010/09/19/health/research/ ... ) El lector alfabetizado estadísticamente verá de inmediato las implicaciones no establecidas en relación con el diseño experimental y el uso de valores p para la toma de decisiones. Hay una resolución estadística, en alguna parte, del enigma de vida o muerte descrito en este artículo.
whuber
26

Michael Jordan tiene un breve artículo llamado ¿Cuáles son los problemas abiertos en las estadísticas bayesianas? , en el que encuestó a un grupo de estadísticos por sus puntos de vista sobre los problemas abiertos en las estadísticas. Resumiré (también conocido como copiar y pegar) un poco aquí, pero probablemente sea mejor simplemente leer el original.

No paramétricos y semiparamétricos

  • ¿Para qué problemas es útil la no paramétrica bayesiana y vale la pena?
  • David Dunson: "Los modelos de Bayes no paramétricos implican infinitos parámetros y los anteriores se eligen típicamente por conveniencia con hiperparámetros establecidos en valores aparentemente razonables sin una justificación objetiva o subjetiva adecuada".
  • "Varias personas notaron que una de las aplicaciones atractivas de los no paramétricos frecuentistas es la inferencia semiparamétrica, donde el componente no paramétrico del modelo es un parámetro molesto. Estas personas sintieron que sería deseable desarrollar la teoría (frecuenta) Semiparamétrica bayesiana ".

Priors

  • "La obtención sigue siendo una fuente importante de problemas abiertos".
  • "Aad van der Vaart se volvió objetivo Bayes sobre su cabeza y señaló una falta de teoría para" situaciones en las que uno quiere que lo anterior se presente en la parte posterior "en lugar de" simplemente proporcionar un enfoque bayesiano para suavizar ".

Relaciones bayesianas / frecuentistas

  • "Muchos encuestados expresaron su deseo de forjar aún más las relaciones bayesianas / frecuentistas. Esto se evidenció más comúnmente en el contexto de modelos y datos de alta dimensión, donde no solo los enfoques subjetivos para la especificación de los antecedentes son difíciles de implementar, sino que los principios de conveniencia pueden ser (altamente) engañoso ".
  • 'Algunos encuestados lamentaron la teoría no asintótica que podría revelar más plenamente las supuestas ventajas de los métodos bayesianos; por ejemplo, David Dunson: "A menudo, la frecuencia óptima frecuente se obtiene mediante procedimientos que claramente hacen mucho peor en muestras finitas que los enfoques bayesianos".

Computación y estadística

  • Alan Gelfand: "Si MCMC ya no es viable para los problemas que la gente quiere abordar, ¿cuál es el papel del INLA, de los métodos variacionales, de los enfoques ABC?"
  • "Varios encuestados pidieron una integración más exhaustiva de la ciencia computacional y la ciencia estadística, señalando que el conjunto de inferencias que uno puede alcanzar en cualquier situación dada es conjuntamente una función del modelo, el previo, los datos y los recursos computacionales, y deseó para un manejo más explícito de las compensaciones entre estas cantidades. De hecho, Rob Kass planteó la posibilidad de una noción de "solvencia inferencial", donde se entiende que algunos problemas están fuera de toda esperanza (por ejemplo,selección del modelo en regresión donde "para cantidades moderadas de datos sujetos a ruido no trivial es imposible obtener intervalos de confianza útiles sobre los coeficientes de regresión cuando hay un gran número de variables cuya presencia o ausencia en el modelo no se especifica a priori") y donde existen otros problemas ("ciertos funcionales para los cuales existen intervalos de confianza útiles") para los cuales hay esperanza ".
  • "Varios encuestados, mientras se disculpaban por cierta imprecisión, expresaron la sensación de que una gran cantidad de datos no necesariamente implica una gran cantidad de cómputo; más bien, que de alguna manera la fuerza inferencial presente en grandes datos debería transferirse al algoritmo y hacerlo posible hacer con menos pasos computacionales para lograr una solución inferencial satisfactoria (aproximada) ".

Selección de modelo y prueba de hipótesis

  • George Casella: "Ahora hacemos la selección del modelo, pero los bayesianos no parecen preocuparse por las propiedades de basar la inferencia en el modelo seleccionado. ¿Qué pasa si está mal? ¿Cuáles son las consecuencias de establecer regiones creíbles para un determinado parámetro cuando seleccionó el modelo incorrecto? ¿Podemos tener procedimientos con algún tipo de garantía? "β1
  • Necesidad de más trabajo sobre fundamentos teóricos de decisión en la selección de modelos.
  • David Spiegelhalter: "¿Cuál es la mejor manera de hacer comprobaciones de conflictos anteriores / de datos como parte integral del análisis bayesiano?"
  • Andrew Gelman: "Para la verificación de modelos, un problema abierto clave es desarrollar herramientas gráficas para comprender y comparar modelos. Los gráficos no son solo para datos en bruto, sino que los modelos bayesianos complejos brindan la oportunidad de un análisis de datos exploratorio mejor y más efectivo".
raegtin
fuente
13

No estoy seguro de qué tan grandes son, pero hay una página de Wikipedia para problemas no resueltos en las estadísticas. Su lista incluye:

Inferencia y prueba

  • Errores sistemáticos
  • Admisibilidad del estimador Graybill-Deal
  • Combinando valores p dependientes en el metanálisis
  • Problema de Behrens-Fisher
  • Comparaciones múltiples
  • Problemas abiertos en las estadísticas bayesianas

Diseño experimental

  • Problemas en cuadrados latinos

Problemas de naturaleza más filosófica.

  • Problema de muestreo de especies
  • Argumento del fin del mundo
  • Paradoja del intercambio
gung
fuente
4

Mathoverflow tiene una pregunta similar sobre grandes problemas en la teoría de probabilidad .

Parecería de esa página que las preguntas más importantes tienen que ver con auto evitando caminatas aleatorias y percolaciones.

Robby McKilliam
fuente
1
Sin embargo, creo que la estadística es un área separada de la teoría de la probabilidad.
raegtin
3
@raegtin: no creo que la teoría de la probabilidad esté separada de las estadísticas, sino que es la teoría. "Estadística" es la aplicación de la teoría de la probabilidad a problemas inferenciales (es decir, la práctica).
probabilityislogic
3

Mi respuesta sería la lucha entre las estadísticas frecuentistas y bayesianas. Cuando la gente te pregunta en qué "crees", ¡esto no es bueno! Especialmente para una disciplina científica.

pmgjones
fuente
2
No hay nada de malo en que un científico "crea" en algo, especialmente porque una probabilidad bayesiana representa el grado de creencia o conocimiento con respecto a la verdad de alguna proposición.
Dikran Marsupial
2
... El problema surge solo cuando un científico no puede distinguir entre una creencia y un hecho. No hay nada no científico en la creencia de que las estadísticas bayesianas o frecuentistas son superiores, ya que no existe una prueba objetiva que pueda decidir la respuesta (AFAIK), por lo que la elección es en gran medida subjetiva y / o una cuestión de "caballos para cursos".
Dikran Marsupial
@propofol: estoy de acuerdo en que la palabra "creer" no es una noción apropiada para usar en las estadísticas, ya que conlleva el tipo incorrecto de connotaciones. Creo que la información es una palabra mucho más apropiada (es decir, "¿qué información tienes?"). No cambia las matemáticas ni los teoremas de optimización del análisis bayesiano, pero les da su significado adecuado en términos de cómo se usan realmente. Por ejemplo, el conocimiento de una teoría física o mecanismo causal es información y no creencia.
probabilityislogic