Soy un estudiante graduado de matemática pura con poca experiencia en matemática aplicada. Desde el otoño pasado, he estado tomando clases sobre el libro de Casella & Berger, y he terminado cientos (más de 230) páginas de problemas de ejercicio en el libro. En este momento estoy en el Capítulo 10.
Sin embargo, como no me especialicé en estadística ni planeé ser estadístico, no creo que pueda invertir tiempo regularmente para continuar aprendiendo el análisis de datos. Mi experiencia hasta el momento me dice que, para ser estadístico, uno debe soportar muchos cálculos tediosos que involucran varias distribuciones (Weibull, Cauchy, , ...). Encontré que aunque las ideas fundamentales son simples, la implementación (por ejemplo, el LRT en la prueba de hipótesis) puede ser difícil debido a los tecnicismos.
¿Es correcto mi entendimiento? ¿Hay alguna manera de aprender probabilidades y estadísticas que no solo cubran material más avanzado, sino que también puedan ayudar en caso de que necesite un análisis de datos en la vida real? ¿Tendré que pasar 20 horas a la semana como solía hacerlo?
Si bien creo que no hay un camino real en el aprendizaje de las matemáticas, a menudo no puedo evitar preguntarme: la mayoría de las veces no sabemos cuál es la distribución de los datos de la vida real, entonces, ¿cuál es el propósito para que nos centremos exclusivamente en varias familias de distribuciones? ? Si el tamaño de la muestra es pequeño y el teorema del límite central no se aplica, ¿cómo podemos analizar adecuadamente los datos además del promedio de la muestra y la varianza si la distribución es desconocida?
Mi semestre terminará en un mes, y no quiero que mis conocimientos se evaporen después de comenzar a centrarme en mi investigación de doctorado. Entonces decidí preguntar. Estoy aprendiendo R, y tengo algo de experiencia en programación, pero mi nivel es casi el mismo que un código mono.
fuente
Respondiendo por otros que vienen a esta pregunta más tarde ...
Aprenda bases de datos (SQL), dplyr / pandas, herramientas Unix (sed, grep), scraping, scripting, limpieza de datos y pruebas de software. Las diversas distribuciones especializadas tienen poco valor en la industria.
Un libro de regresión aplicado como Angrist & Pischke, Faraway o Weisberg, será un tipo de teoría más práctica.
De ahí el interés en las estadísticas no paramétricas. Pero al mismo tiempo no paramétrico sin supuestos es demasiado flojo. Para responder a su pregunta, las familias especializadas se pueden considerar como respuestas a preguntas simples que quizás pueda encontrar. Por ejemplo, pienso en un gaussiano como una estimación puntual "suave". Poisson responde otra pregunta simple. Cuando las personas construyen modelos matemáticos, estos especiales pueden ser puntos de apoyo útiles. (Pero los académicos a menudo toman la búsqueda de la distribución maestra de la manera incorrecta).
OP: ¡Espero que te hayas divertido con tu investigación de doctorado!
fuente