El matemático quiere el conocimiento equivalente a un título de estadísticas de calidad

77

Sé que a la gente le encanta cerrar duplicados, así que no estoy pidiendo una referencia para comenzar a aprender estadísticas (como aquí ).

Tengo un doctorado en matemáticas pero nunca aprendí estadística. ¿Cuál es la ruta más corta hacia el conocimiento equivalente a un grado superior de estadística BS y cómo mido cuando lo he logrado?

Si una lista de libros fuera suficiente (suponiendo que haga los ejercicios, digamos), eso es excelente. Sí, espero que resolver los problemas sea una parte implícita de aprenderlo, pero quiero acelerarlo tanto como sea posible. No estoy buscando un tratamiento increíblemente riguroso a menos que sea parte de lo que generalmente aprenden las especialidades estadísticas.

John Robertson
fuente
1
¿en qué campo de las matemáticas recibió su doctorado? Esto puede ser relevante.
mpiktas
77
¿Podrías compartir con nosotros por qué quieres aprender estadísticas? ¿Curiosidad? Necesario para un proyecto o investigación? ¿Quieres cambiar de trabajo? ¿Necesitas enseñar algunos cursos? ¿Quieres colaborar con los estadísticos como la persona teórica?
whuber
55
Creo que casi siempre es importante desarrollar experiencia específica de dominio también. Muchas estadísticas están aprendiendo los modelos relevantes para campos específicos.
Tristan
10
Intente revertir "el estadístico quiere un conocimiento equivalente a un grado de matemática de calidad": no es probable que haya rutas rápidas.
probabilidadislogica
1
"Sé que a la gente le encanta cerrar duplicados" me hizo reír.
Mustafa S Eisa

Respuestas:

77

(Muy) cuento

En pocas palabras, las estadísticas son como cualquier otro campo técnico: no hay una vía rápida .

Larga historia

Los programas de licenciatura en estadística son relativamente raros en los Estados Unidos. Una razón por la que creo que esto es cierto es que es bastante difícil incluir todo lo necesario para aprender estadísticas en un plan de estudios universitario. Esto es particularmente cierto en las universidades que tienen requisitos significativos de educación general.

El desarrollo de las habilidades necesarias (matemáticas, computacionales e intuitivas) requiere mucho esfuerzo y tiempo. Las estadísticas pueden comenzar a entenderse a un nivel "operacional" bastante decente una vez que el estudiante haya dominado el cálculo y una cantidad decente de álgebra lineal y matricial. Sin embargo, cualquier estadístico aplicado sabe que es bastante fácil encontrarse en un territorio que no se ajusta a un enfoque basado en recetas o en un cortador de galletas. Para comprender realmente lo que sucede debajo de la superficie se requiere como requisito previomatemática y, en el mundo de hoy, madurez computacional que solo son realmente alcanzables en los años posteriores de la formación universitaria. Esta es una de las razones por las que la verdadera capacitación estadística comienza principalmente en el nivel de EM en los EE. UU. (India, con su ISI dedicado es una historia un poco diferente. Un argumento similar podría hacerse para alguna educación basada en Canadá. No estoy lo suficientemente familiarizado con Educación estadística de pregrado con base en Europa o Rusia para tener una opinión informada.)

Casi cualquier trabajo (interesante) requeriría una educación a nivel de EM y los trabajos realmente interesantes (en mi opinión) esencialmente requieren una educación a nivel de doctorado.

Al ver que tiene un doctorado en matemáticas, aunque no sabemos en qué área, aquí están mis sugerencias para algo más cercano a una educación de nivel MS. Incluyo algunos comentarios entre paréntesis para explicar las opciones.

  1. D. Huff, Cómo mentir con las estadísticas . (Lectura muy rápida y fácil. Muestra muchas de las ideas conceptuales y dificultades, en particular, al presentar estadísticas al lego).
  2. Mood, Graybill y Boes, Introducción a la teoría de la estadística , 3a ed., 1974. (Introducción a nivel estadístico de la estadística teórica. Aprenderá sobre distribuciones de muestreo, estimación de puntos y pruebas de hipótesis en un marco clásico y frecuentista. Mi la opinión es que esto es generalmente mejor y un poco más avanzado que sus homólogos modernos como Casella & Berger o Rice).
  3. Seber & Lee, Análisis de regresión lineal , 2ª ed. (Establece la teoría detrás de la estimación puntual y las pruebas de hipótesis para modelos lineales, que es probablemente el tema más importante para entender en las estadísticas aplicadas. Dado que probablemente tenga un buen fondo de álgebra lineal, debería ser capaz de comprender lo que está sucediendo geométricamente , lo que proporciona mucha intuición. También tiene buena información relacionada con cuestiones de evaluación en la selección de modelos, desviaciones de supuestos, predicciones y versiones robustas de modelos lineales).
  4. Hastie, Tibshirani y Friedman, Elementos del aprendizaje estadístico , 2ª ed., 2009. (Este libro tiene un sentimiento mucho más aplicado que el anterior y abarca en general muchos temas modernos de aprendizaje automático. La mayor contribución aquí es proporcionar interpretaciones estadísticas de muchas ideas de aprendizaje automático, lo que vale especialmente para cuantificar la incertidumbre en tales modelos. Esto es algo que tiende a no ser abordado en los libros típicos de aprendizaje automático. Legalmente disponible de forma gratuita aquí .)
  5. A. Agresti, Análisis de datos categóricos , 2ª ed. (Buena presentación de cómo tratar datos discretos en un marco estadístico. Buena teoría y buenos ejemplos prácticos. Quizás en el aspecto tradicional en algunos aspectos).
  6. Boyd y Vandenberghe, Optimización convexa . (Muchos de los problemas más populares de estimación estadística moderna y pruebas de hipótesis pueden formularse como problemas de optimización convexa. Esto también se aplica a numerosas técnicas de aprendizaje automático, por ejemplo, SVM. Tener una comprensión más amplia y la capacidad de reconocer tales problemas como programas convexos es bastante valioso, creo. Legalmente disponible gratis aquí .)
  7. Efron y Tibshirani, una introducción a Bootstrap . (Al menos debe estar familiarizado con el bootstrap y las técnicas relacionadas. Para un libro de texto, es una lectura rápida y fácil).
  8. J. Liu, Monte Carlo Strategies in Scientific Computing o P. Glasserman, Monte Carlo Methods in Financial Engineering . (Esto último suena muy dirigido a un área de aplicación en particular, pero creo que proporcionará una buena visión general y ejemplos prácticos de todas las técnicas más importantes. Las aplicaciones de ingeniería financiera han impulsado una buena cantidad de investigación de Monte Carlo durante la última década más o menos .)
  9. E. Tufte, La visualización de información cuantitativa . (La buena visualización y presentación de datos está [altamente] subestimada, incluso por los estadísticos).
  10. J. Tukey, Análisis de datos exploratorios . (Estándar. Viejo, pero bueno. Algunos podrían decir anticuado, pero vale la pena echarle un vistazo.)

Complementos

Aquí hay algunos otros libros, en su mayoría de naturaleza un poco más avanzada, teórica y / o auxiliar, que son útiles.

  1. FA Graybill, teoría y aplicación del modelo lineal . (Anticuado, composición tipográfica terrible, pero cubre todo el mismo terreno de Seber & Lee, y más. Digo anticuado porque los tratamientos más modernos probablemente tenderían a usar el SVD para unificar y simplificar muchas de las técnicas y pruebas).
  2. FA Graybill, Matrices con aplicaciones en estadística . (Texto complementario al anterior. Una gran cantidad de buenos resultados de álgebra matricial útiles para las estadísticas aquí. Gran referencia de escritorio).
  3. Devroye, Gyorfi y Lugosi, una teoría probabilística del reconocimiento de patrones . (Texto riguroso y teórico sobre la cuantificación del rendimiento en problemas de clasificación).
  4. Brockwell y Davis, Series temporales: teoría y métodos . (Análisis clásico de series de tiempo. Tratamiento teórico. Para los más aplicados, los textos de Box, Jenkins & Reinsel o Ruey Tsay son decentes).
  5. Motwani y Raghavan, Algoritmos aleatorizados . (Métodos probabilísticos y análisis para algoritmos computacionales).
  6. D. Williams, Probabilidad y Martingales y / o R. Durrett, Probabilidad: teoría y ejemplos . (En caso de que haya visto la teoría de la medición, digamos, a nivel de DL Cohn, pero tal vez no la teoría de la probabilidad. Ambos son buenos para ponerse al día rápidamente si ya conoce la teoría de la medición).
  7. F. Harrell, Estrategias de modelado de regresión . (No es tan bueno como los Elementos de Aprendizaje Estadístico [ESL], pero tiene una visión diferente e interesante de las cosas. Cubre temas de estadísticas aplicadas más "tradicionales" que el ESL y por lo tanto vale la pena saberlo, sin duda).

Textos más avanzados (nivel de doctorado)

  1. Lehmann y Casella, Teoría de la estimación puntual . (Tratamiento a nivel de doctorado de la estimación puntual. Parte del desafío de este libro es leerlo y descubrir qué es un error tipográfico y qué no lo es. Cuando vea que los reconoce rápidamente, sabrá que comprende. Hay mucha práctica de este tipo allí, especialmente si te sumerges en los problemas).

  2. Lehmann y Romano, Prueba de hipótesis estadísticas . (Tratamiento a nivel de doctorado de pruebas de hipótesis. No hay tantos errores tipográficos como TPE arriba).

  3. A. van der Vaart, Estadísticas asintóticas . (Un hermoso libro sobre la teoría asintótica de la estadística con buenos consejos sobre áreas de aplicación. Sin embargo, no es un libro aplicado. Mi única objeción es que se usa alguna notación bastante extraña y los detalles a veces se esconden debajo de la alfombra).

cardinal
fuente
1
@cardinal, las universidades ex soviéticas tienen estudios estadísticos de pregrado separados. En la Universidad de Vilna, por ejemplo, puedes obtener una licenciatura en estadística. Por lo que veo con los estudiantes, estoy totalmente de acuerdo en que se necesita una educación de maestría o incluso de doctorado para trabajos interesantes.
mpiktas
1
@cardinal, @mpiktas 4 años en BS + 2 años en MS + 4 años en PhD hace diez años para aprender algo interesante :) Daría a esta gran respuesta si es posible. La mayoría de los libros son nuevos para mí. +
Dmitrij Celov
2
@ John Salvatier, tiene razón en que esos métodos no están cubiertos en este texto. Por otra parte, esto me parece más una cuestión de gustos, particularmente porque el enfoque principal del texto no está en los algoritmos. A saber, sus inquietudes son abordadas directamente por los autores en la introducción (pág. 13).
cardenal
2
@cardinal: las universidades escandinavas por lo general también ofrecen títulos de licenciatura. Dicho esto, creo que los estadísticos se toman demasiado en serio. No estoy de acuerdo con que necesites un doctorado para obtener un trabajo "interesante". Creo que a medida que la ciencia y la investigación se vuelven cada vez más, se han impuesto estadísticas interdisciplinarias en estudios de muchas áreas diferentes. La mitad de los artículos sobre revistas de alto impacto tienen algún análisis estadístico cuestionable, solo para satisfacer las demandas, aunque no tenga ningún sentido, dado en el contexto / dominio original del problema.
posdef
1
@cardinal Mood book fue una gran sugerencia porque hoy en día es difícil encontrar un libro introductorio sobre estadísticas que sea lo suficientemente formal para alguien con experiencia en matemáticas. ¿Alguien ha leído este libro nuevo libro? Panateros, "Estadísticas para matemáticos" springer.com/us/book/9783319283395
Igor Fobia
11

No puedo hablar por las escuelas más rigurosas, pero estoy haciendo una licenciatura en Estadística General (la más rigurosa en mi escuela) en la Universidad de California, Davis, y hay una gran cantidad de confianza en el rigor y la derivación. Un doctorado en matemáticas será útil, en la medida en que tendrá una sólida formación en análisis real y álgebra lineal, habilidades útiles en estadística. Mi programa de estadísticas tiene aproximadamente el 50% del trabajo del curso que va a apoyar los fundamentos (álgebra lineal, análisis real, cálculo, probabilidad, estimación), y el otro 50% se dirige a temas especializados que se basan en los fundamentos (no paramétricos, computación, ANOVA / Regresión, series temporales, análisis bayesiano).
Una vez que obtenga los fundamentos, saltar a los detalles generalmente no es demasiado difícil. La mayoría de las personas en mis clases luchan con las pruebas y el análisis real, y captan fácilmente los conceptos estadísticos, por lo que venir de un fondo matemático definitivamente ayudará. Dicho esto, los siguientes dos textos tienen una cobertura bastante buena de muchos temas cubiertos en estadísticas. Ambos fueron recomendados en el enlace que proporcionó, por cierto, por lo que no diría que su pregunta y la que vinculó no están necesariamente correlacionadas.

Métodos matemáticos de estadística , por Harald Cramer

Todas las estadísticas: un curso conciso en inferencia estadística , por Larry Wasserman

Christopher Aden
fuente
3
+1 Todas las estadísticas: sería un buen lugar para comenzar.
Simon Byrne
1
el programa UC-Davis se ve bien y creo que obtendrás una excelente educación allí. No lo consideraría "menos riguroso" que otros lugares. Pensé que el comentario en su página de "grado de BS / MS integrado" era interesante y relevante para el hilo: "Hay una gran demanda de estadísticos, pero el conocimiento y la habilidad alcanzada por aquellos con un título de BS en Estadística a menudo no son suficientes para las necesidades en el lugar de trabajo [gubernamental o industrial] ".
cardenal
9

La Royal Statistical Society en el Reino Unido ofrece el Diploma de Posgrado en Estadística, que está al nivel de una buena licenciatura. Un programa de estudios, una lista de lectura y documentos anteriores están disponibles en su sitio web . Sé que los matemáticos lo usan para ponerse al día en Estadística. Tomar los exámenes (oficialmente o en la comodidad de su propio estudio) podría ser una forma útil de medir cuándo está allí.

Scortchi - Restablece a Monica
fuente
3
Los exámenes de Diploma de Posgrado son efectivamente exámenes de pregrado de último año; para fines de "puesta en escena", hay certificados de nivel inferior que se pueden tomar primero. Los exámenes RSS están disponibles, si no recuerdo mal, en todo el mundo con la excepción de Hong Kong (que tiene su propia sociedad estadística y exámenes). Una alternativa es el Diploma de pregrado en Estadística ofrecido por la educación a distancia por la Open University en el Reino Unido, pero nuevamente disponible en todo el mundo. Esto es de un nivel ligeramente más bajo que el RSS Grad Dip, por lo que puede verse como una preparación para ello. Como curso enseñado es sustancialmente más caro.
Silverfish
5

Iría a los sitios web de los planes de estudios de las mejores escuelas de estadísticas, escribiría los libros que usan en sus cursos de pregrado, vería cuáles tienen una alta calificación en Amazon y los ordenaría en su biblioteca pública / universitaria.

Algunas escuelas a considerar:

Complemente los textos con los diversos sitios de video de conferencias como MIT OCW y videolectures.net.

Caltech no tiene un título universitario en estadística, pero no te equivocarás si sigues el plan de estudios de sus cursos de estadísticas de pregrado.

Neil McGuigan
fuente
1
Esto parece una lista un poco extraña. Que yo sepa, Carnegie Mellon es la única escuela en esa lista que (formalmente) ofrece un título universitario en estadística. Ni Caltech ni el MIT tienen siquiera programas de posgrado en estadística.
cardenal
@cardenal. ¿Por qué debes dudar de mí? :) Puse enlaces a los cursos de estadísticas de pregrado en esas excelentes instituciones. Además, mezclar y combinar cursos de las mejores escuelas será mejor que seguir un camino de grado de una escuela peor.
Neil McGuigan
2
OCW es ciertamente un excelente recurso y una gran iniciativa. Esto no lo duda. En cuanto a su afirmación de que mezclar y combinar de las "mejores escuelas" es una solución superior, creo que es altamente sospechoso, particularmente para los estudios de pregrado. Mientras que un estudiante altamente motivado seguramente obtendrá una muy buena educación de pregrado en cualquiera de esas escuelas, una educación de pregrado tan buena o mejor se puede encontrar en muchas, muchas "peores" escuelas. Diría que las escuelas como las que usted enumera tienden a "ganar" para la educación de posgrado.
cardenal
2
En realidad, esto fue lo primero que intenté. Intenté esto antes de publicar la pregunta. Encontrar una lista de cursos no fue difícil, pero encontrar información sobre qué libros realmente se usaron para esos cursos y qué secciones de esos libros estaban cubiertas fue mucho más difícil.
John Robertson
3

He visto la Inferencia estadística, de Silvey, utilizada por matemáticos que necesitaban un poco de comprensión diaria de las estadísticas. Es un libro pequeño, y por derecho debería ser barato. Mirando http://www.amazon.com/Statistical-Inference-Monographs-Statistics-Probability/dp/0412138204/ref=sr_1_1?ie=UTF8&s=books&qid=1298750064&sr=1-1 , parece ser una segunda mano barata.

Es viejo y se concentra en las estadísticas clásicas. Si bien no es muy abstracto, está destinado a un público razonablemente matemático: muchos de los ejercicios provienen del Diploma de Cambridge (Reino Unido) en Estadística Matemática, que es básicamente una maestría.

mcdowella
fuente
3

Con respecto a la medición de su conocimiento: podría asistir a algunos concursos de minería de datos / análisis de datos, como 1 , 2 , 3 , 4 , y ver cómo califica en comparación con otros.

Hay muchos indicadores sobre los libros de texto sobre estadística matemática en las respuestas. Me gustaría agregar como temas relevantes:

  • El componente empírico de investigación social, que comprende la teoría del muestreo, los estándares sociodemográficos y regionales.
  • gestión de datos, que incluye knowlegde en bases de datos (escritura de consultas SQL, esquemas de bases de datos comunes)
  • comunicación, cómo presentar resultados de una manera que la audiencia se mantenga despierta (métodos de visualización)

Descargo de responsabilidad: no soy un estadístico, estos son solo mis 2 centavos

Karsten W.
fuente
3

ET Jaynes "Teoría de la probabilidad: la lógica de la ciencia: principios y aplicaciones elementales Vol. 1", Cambridge University Press, 2003 es casi una lectura obligada para el lado bayesiano de las estadísticas, aproximadamente al nivel correcto. Espero con interés las recomendaciones para el lado frecuente de las cosas (tengo un montón de monografías, pero muy pocos textos generales buenos).

Dikran Marsupial
fuente
3
Sugeriría que es una lectura obligada para cualquiera que quiera ser un buen estadístico, frecuente, bayesiano o cualquier otra cosa.
chanceislogic
10
No estoy de acuerdo, el libro de Jaynes es una recomendación terrible en esta circunstancia: 1) la notación es descuidada y no estándar, lo que dificulta la referencia cruzada con otras fuentes, 2) se ha quedado sin aliento y se atasca en argumentos tontos e irrelevantes (el OP solicitó la "ruta más corta") 3) también están los errores (como la paradoja de la marginación)
Simon Byrne
1
@Dikran Marsupial, ¿posee el texto de Schervish sobre inferencia estadística? He estado en la cerca con respecto a si comprarlo o no, así que era curioso, ya que parece alinearse bastante con el enfoque bayesiano.
cardenal
1
No diría que estaba fuertemente alineado con el enfoque bayesiano. Es el enfoque que entiendo mejor, que no es lo mismo. ¡Esencialmente soy un ingeniero de corazón, y quiero que ambas herramientas en mi caja de herramientas se mantengan en buen estado! A lo que debemos aspirar es a comprender adecuadamente los beneficios y las desventajas de cada enfoque. No tengo el libro de Shervishes, pero leí un artículo suyo sobre los factores de Bayes que me pareció bastante defectuoso (¡veré si puedo encontrarlo y publicaré una pregunta para que alguien me lo explique!).
Dikran Marsupial
@Dikran, tu (potencial) pregunta suena interesante. Espero con interés una publicación al respecto.
cardenal
3

Vengo de una formación en informática centrada en el aprendizaje automático. Sin embargo, realmente comencé a entender (y más importante aplicar) las estadísticas después de tomar un curso de Reconocimiento de patrones usando Bishop's Book https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book

Aquí hay algunas diapositivas del curso del MIT:
http://www.ai.mit.edu/courses/6.867-f03/lectures.html

Esto solo le dará el fondo (+ algún código de matlab) para usar estadísticas para problemas de trabajo real y definitivamente es más del lado aplicado.

Sin embargo, depende en gran medida de lo que quieras hacer con tu conocimiento. Para obtener una medida de lo bueno que es, es posible que desee navegar por los cursos abiertos de algunas universidades para obtener cursos de estadísticas avanzadas, para verificar si conoce los temas cubiertos. Solo mis 5 centavos.

kgarten
fuente
1

Creo que Stanford proporciona los mejores recursos cuando se trata de flexibilidad. Incluso tienen un curso de aprendizaje automático en línea que le proporcionará una base respetable de conocimientos a la hora de diseñar algoritmos en R. Búsquelo en Google y lo redirigirá a su página de Lagunita, donde tienen algunos cursos interesantes, la mayoría de ellos. ellos siendo libres. Tengo los libros de Tibshirani, Introducción al aprendizaje estadístico 'y' Elementos del aprendizaje estadístico 'en formatos PDF y ambos son recursos extremadamente buenos.

Como eres matemático, aún te aconsejaría que no aceleres, ya que eso no te proporcionaría una base sólida que podrías encontrar muy útil en el futuro si empiezas a hacer un aprendizaje automático serio. Trate las estadísticas como una rama de las matemáticas para obtener información de los datos, y eso requiere algo de trabajo. Aparte de eso, hay toneladas de recursos en línea, Johns Hopkins ofrece cosas similares a Stanford. Aunque la experiencia siempre paga, una credencial respetable siempre reforzará esa base. También puede pensar en los campos específicos que le gustaría ingresar; con eso quiero decir si quieres entrar en análisis de texto o aplicar tus habilidades matemáticas y estadísticas en finanzas. Entro en la última categoría, así que tengo un título en econometría donde estudiamos finanzas + estadísticas. Una combinación siempre puede ser muy buena.

revs Shiv_90
fuente