¿Cuáles son las ramas de las estadísticas?

30

En matemáticas, hay ramas como álgebra, análisis, topología, etc. En el aprendizaje automático hay aprendizaje supervisado, no supervisado y de refuerzo. Dentro de cada una de estas ramas, hay ramas más finas que dividen aún más los métodos.

Tengo problemas para trazar un paralelo con las estadísticas. ¿Cuáles serían las principales ramas de las estadísticas (y sub-ramas)? Probablemente no sea posible una partición perfecta, pero cualquier cosa es mejor que un gran mapa en blanco.

Ejemplos visuales: ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

silly.deer
fuente
66
Para ofrecer otra razón más por la cual esta pregunta no tiene respuesta (y por qué, tal vez la premisa está fuera de lugar): se entiende mal que el objetivo de la ciencia teórica y dura (como las matemáticas) es generalizar en lugar de especializarse . Entonces, si visualizáramos la trayectoria de una investigación exitosa en el campo, no lo veríamos como si se ramificara en ramas más pequeñas y refinadas, sino más bien como una lente que se amplía cada vez más hacia conceptos y pensamientos más abstractos.
AdamO
La respuesta de @Rob Hyndman todavía me parece contundente. Soy muy escéptico de cualquier clasificación aquí. Además, este es un lugar tan bueno como cualquier otro para señalar que una lista de temas que se le ocurre a alguien está muy por debajo de una clasificación basada en un árbol. Y aunque los dendrogramas o las representaciones de bolas de pelo son ligeramente intrigantes, ¿para qué sirven o interesan realmente más allá de demostrar la naturaleza múltiple del campo?
Nick Cox

Respuestas:

52

Encuentro estos sistemas de clasificación extremadamente inútiles y contradictorios. Por ejemplo:

  • las redes neuronales son una forma de aprendizaje supervisado
  • El cálculo se usa en geometría diferencial
  • La teoría de la probabilidad se puede formalizar como parte de la teoría de conjuntos.

y así. No hay "ramas" inequívocas de las matemáticas, y tampoco debería haber estadísticas.

Rob Hyndman
fuente
11
"Las redes neuronales son una forma de aprendizaje supervisado". Eso tampoco es del todo cierto, ¿verdad? Quiero decir, uno podría usar (y usa) NNs en aprendizaje supervisado, aprendizaje no supervisado e incluso aprendizaje de refuerzo. Bueno, el concepto de redes neuronales al menos (es solo una gran función no lineal que puede optimizarse a través de varios métodos de optimización, entre ellos SL, UL y RL). Pero tal vez la terminología simplemente se usa en la forma en que la está usando, en cuyo caso ... cualquiera puede tener razón.
BlueRine S
77
Claro, no hay verdad, pero eso no es realmente útil. ¿Existe un modelo que satisfaga las necesidades del OP?
Jay Schyler Raadt
3
Rob tiene razón. Los árboles de decisión se usan en la regresión y AdaBoost es un método de clasificación, pero el mapa no muestra esto.
Zen
44
Confieso que realmente no entiendo esta perspectiva. Un libro de texto de estadísticas también debe tener la secuencia de sus capítulos organizados de alguna manera, y su página de contenido refleja esa organización. La estructura de la página de contenido transmite al menos algo de información sobre cómo se organizan los conceptos del campo, y lo hace de una manera mucho más limitada de lo que permitiría una visualización. Si nadie tiene un problema con la existencia de páginas de contenido de libros de texto a pesar de que no capturan la complejidad del campo, no veo por qué uno se opondría a una visualización como la que espera el OP.
mkt - Restablece a Monica el
44
Los libros de texto no están estructurados jerárquicamente, están estructurados linealmente. Más adelante en el libro, los enlaces entre los primeros capítulos a menudo se desarrollan mostrando que los temas presentados por separado anteriormente están realmente vinculados. Para tomar un ejemplo, mi propio libro de texto sobre pronósticos en el que presentamos modelos de regresión dinámica en un capítulo posterior, vinculando los modelos de regresión y ARIMA presentados anteriormente.
Rob Hyndman
29

Este es un contrapunto menor a la respuesta de Rob Hyndman. Comenzó como un comentario y luego se volvió demasiado complejo para uno. Si esto está muy lejos de abordar la pregunta principal, me disculpo y lo eliminaré.


La biología ha estado representando relaciones jerárquicas desde mucho antes del primer garabato de Darwin (ver el comentario de Nick Cox para un enlace). La mayoría de las relaciones evolutivas todavía se muestran con este tipo de 'árbol filogenético' agradable, limpio y ramificado:

ingrese la descripción de la imagen aquí Sin embargo, finalmente nos dimos cuenta de que la biología es más complicada que esto. Ocasionalmente, existe un intercambio genético (a través de cruces y otros procesos) entre distintas especies y genes presentes en una parte del árbol que 'salta' a una parte diferente del árbol. La transferencia horizontal de genes mueve los genes de una manera que hace que la simple representación del árbol anterior sea inexacta. Sin embargo, no abandonamos los árboles, sino que simplemente creamos modificaciones a este tipo de visualización:

Igual que la figura anterior, pero con la transferencia de genes a través de las ramas mostradas

Esto es más difícil de seguir, pero transmite una imagen más precisa de la realidad.

Otro ejemplo:

ingrese la descripción de la imagen aquí

Sin embargo, nunca presentamos estas figuras más complejas para empezar, porque son difíciles de comprender sin comprender los conceptos básicos. En cambio, enseñamos la idea básica con la figura simple, y luego les presentamos la figura más compleja y las complicaciones más nuevas de la historia.

Cualquier "mapa" de estadísticas sería igualmente inexacto y una valiosa herramienta de enseñanza. Las visualizaciones del formulario que sugiere OP son muy útiles para los estudiantes y no deben ignorarse simplemente porque no logran capturar la realidad en su totalidad. Podemos agregar más complejidad a la imagen una vez que tengan un marco básico en su lugar.

mkt - Restablecer a Monica
fuente
44
FWIW, las representaciones en árbol de las relaciones entre organismos son anteriores a Darwin. Agregaré una referencia más tarde.
Nick Cox
2
jhupbooks.press.jhu.edu/title/trees-life es académico pero atractivo.
Nick Cox
3
No es tanto un contrapunto como un argumento de apoyo: poner en duda la validez de los árboles. Al menos, con la filogenia, usamos datos para crear dicha estructura, ya sea registro fósil, expresión génica, cualquier cosa. Sin datos, preguntamos seriamente quién tiene la autoridad para elegir los bloques y las flechas que difunden la información errónea.,
AdamO
2
@ AdamO No espero que exista un solo 'mapa' de estadísticas universales. Es perfectamente razonable que dos personas usen diferentes estructuras y diferentes conjuntos de enlaces, aunque uno esperaría que la estructura amplia sea razonablemente robusta (también se producen diferencias de bajo nivel entre los árboles filogenéticos construidos a partir del mismo conjunto de datos, aunque en este punto estamos estirando la metáfora demasiado lejos). Yo diría que la experiencia (dejando de lado las nociones de autoridad por el momento) existe entre las muchas personas que han escrito libros de texto de estadísticas generales, o incluso han enseñado estadísticas generales.
mkt - Restablece a Monica el
2
Me gustaron los diagramas aquí lo suficiente como para votar esto, pero en realidad no responde la pregunta.
Nick Cox
24

Puede consultar las palabras clave / etiquetas del sitio web Cross Validated.


Ramas como una red

Una forma de hacerlo es trazarlo como una red basada en las relaciones entre las palabras clave (con qué frecuencia coinciden en la misma publicación).

Cuando utiliza este script SQL para obtener los datos del sitio de (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Luego, obtiene una lista de palabras clave para todas las preguntas con una puntuación de 2 o más.

Puede explorar esa lista trazando algo como lo siguiente:

relaciones entre etiquetas

Actualización: lo mismo con el color (basado en vectores propios de la matriz de relación) y sin la etiqueta de autoestudio

relaciones entre etiquetas

Puede limpiar este gráfico un poco más (por ejemplo, retire las etiquetas que no se relacionan con conceptos estadísticos como las etiquetas de software, en el gráfico anterior esto ya está hecho para la etiqueta 'r') y mejore la representación visual, pero supongo que esta imagen de arriba ya muestra un buen punto de partida.

Código R:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Ramas jerárquicas

Creo que este tipo de gráficos de red anteriores se relacionan con algunas de las críticas con respecto a una estructura jerárquica puramente ramificada. Si lo desea, supongo que podría realizar un agrupamiento jerárquico para forzarlo a una estructura jerárquica.

A continuación se muestra un ejemplo de dicho modelo jerárquico. Todavía sería necesario encontrar nombres de grupo adecuados para los diversos grupos (pero no creo que este grupo jerárquico sea la buena dirección, por lo que lo dejo abierto).

agrupación jerárquica

La medida de distancia para el agrupamiento se ha encontrado por prueba y error (haciendo ajustes hasta que los grupos parezcan agradables.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Escrito por StackExchangeStrike

Sexto Empírico
fuente
2
Tal vez pondré algo de trabajo para hacer que las gráficas sean más ordenadas. Puede ser bueno tener algunos gráficos claros que mapeen los temas en este sitio web.
Sextus Empiricus
1
Este es un gran enfoque! Bien hecho.
Andrew Brēza
De su gráfico coloreado, las tres grandes áreas son probabilidad, regresión y aprendizaje automático.
Matt F.
@MattF. El gráfico es en realidad un poco problemático y corresponde más a la frecuencia de uso. Intenté escalar la matriz por la frecuencia (como cambiar de matriz de covarianza a matriz de correlación), pero no cambió mucho. El gráfico 2D no muestra la estructura muy bien y el modelo físico, que trata las rutas como cadenas, coloca los nodos en una forma hexagonal / triangular (que es más eficiente).
Sextus Empiricus
1
Diría que en stackoverflow son cinco categorías principales: probabilidad, regresión, aprendizaje automático, pero también pruebas de hipótesis y series de tiempo.
Sextus Empiricus
9

Una manera fácil de responder a su pregunta es buscar las tablas de clasificación comunes. Por ejemplo, la clasificación de asignaturas de matemáticas de 2010 es utilizada por algunas publicaciones para clasificar trabajos. Estos son relevantes porque así es como muchos autores clasifican sus propios artículos. ingrese la descripción de la imagen aquí

Hay muchos ejemplos de clasificaciones similares, por ejemplo, la clasificación de arxiv o el UDK (clasificación decimal universal) del ministerio de educación ruso, que se utiliza ampliamente para todas las publicaciones e investigaciones.

ingrese la descripción de la imagen aquí

Otro ejemplo es el Sistema de Claasificación JEL de la Asociación Económica Americana. Artículo de Rob Hyndman " Predicción automática de series de tiempo: el paquete de pronóstico para R ". Está clasificado como C53, C22, C52 según JEL. Hyndman tiene un punto en criticar las clasificaciones de los árboles. Un mejor enfoque podría ser el etiquetado, por ejemplo, las palabras clave en su artículo son: "modelos ARIMA, pronóstico automático, suavizado exponencial, intervalos de predicción, modelos de espacio de estado, series de tiempo, R." Se podría argumentar que estas son mejores formas de clasificar los documentos, ya que no son jerárquicos y se podrían construir múltiples jerarquías.

@whuber señaló que algunos de los últimos avances, como el aprendizaje automático, no estarán bajo estadísticas en las clasificaciones actuales. Por ejemplo, eche un vistazo al documento " Aprendizaje profundo: una introducción para matemáticos aplicados " de Catherine F. Higham, Desmond J. Higham. Clasificaron su trabajo bajo el MSC mencionado anteriormente como 97R40, 68T01, 65K10, 62M45. estos están bajo ciencias de la computación, educación matemática y análisis numérico además de estadísticas

Aksakal
fuente
3
Creo que sería más exacto decir que así es como se les pide a muchos autores que clasifiquen sus artículos. Sé que nunca estoy muy satisfecho cuando me piden que emplee categorías a priori para mi trabajo.
Alexis
66
Esta es una buena base para identificar las ramas de la estadística matemática. Saber eso nos ayuda a identificar lo que ha quedado fuera, lo que incluye muchas partes del aprendizaje automático. De hecho, puede ser justo caracterizar la clasificación de asignaturas de matemáticas de 2010 como una descripción de "estadísticas de 1950" y luego incluir todo lo que surgió más tarde, como la geoestadística, la genómica, el bootstrapping, etc. categorías, tal vez).
whuber
4

Una forma de abordar el problema es mirar las redes de citas y coautoría en revistas de estadísticas, como Annals of Statistics, Biometrika, JASA y JRSS-B. Esto fue hecho por:

Ji, P. y Jin, J. (2016). Redes de coautoría y citas para estadísticos. Los Anales de Estadísticas Aplicadas, 10 (4), 1779-1812.

Identificaron comunidades de estadísticos y utilizaron su conocimiento de dominio para etiquetar a las comunidades como:

  • Análisis de datos de alta dimensión (HDDA-Coau-A)
  • Aprendizaje teórico de máquinas
  • Reducción de dimensiones
  • Johns Hopkins
  • Duque
  • Stanford
  • Regresión Cuantil
  • Diseño experimental
  • Objetivo Bayes
  • Bioestadística
  • Análisis de datos de alta dimensión (HDDA-Coau-B)
  • Pruebas múltiples a gran escala
  • Selección Variable
  • Estadísticas espaciales y semiparamétricas / no paramétricas

El documento incluye una discusión detallada de las comunidades junto con la descomposición de las más grandes en otras subcomunidades.

Es posible que esto no responda completamente a la pregunta, ya que se trata de los campos de investigación de estadísticas en lugar de todos los campos, incluidos los que ya no están activos. Espero que, sin embargo, sea útil. Por supuesto, hay otras advertencias (como considerar solo estas cuatro revistas) que se analizan más adelante en el documento.

usuario257566
fuente
2
Estaba pensando en hacer esto para este sitio web. Definir "coautoría" como personas que responden / responden a las mismas preguntas.
Sextus Empiricus
@MartijnWeterings Sí, su respuesta parece estar en una dirección muy similar a este enfoque.
user257566
2

Veo muchas respuestas sorprendentes, y no sé cómo se puede recibir una humilde clasificación propia, pero no conozco ningún libro completo de todas las estadísticas para mostrar el resumen de, y creo que, como @ Como comentó brillantemente, una clasificación de un campo de estudio puede ser útil. Entonces, aquí está mi tiro:

  • estadísticas descriptivas
    • inferencia simple
      • prueba de hipótesis simple
    • trazado / visualización de datos
  • diseño de muestreo
    • diseño experimental
    • diseño de encuestas
  • estadísticas multivariadas (sin supervisión)
    • agrupamiento
    • análisis de componentes
    • modelos de variables latentes
  • modelos lineales (que en realidad también son multivariados)
    • mínimos cuadrados ordinarios
    • modelos lineales generalizados
      • modelo logit
    • otros modelos lineales
      • Modelo Cox
      • regresión cuantil
    • inferencia multivariante
      • prueba de hipótesis múltiples
      • prueba de hipótesis ajustadas
    • modelos para datos estructurados
      • modelos de efectos mixtos
      • modelos espaciales
      • modelos de series de tiempo
    • extensiones no lineales
      • modelos aditivos generalizados
  • estadísticas bayesianas (en realidad existen métodos bayesianos para muchas cosas que ya enumeré)
  • regresión no paramétrica y clasificación
    • muchos métodos de aprendizaje automático encajan aquí

Por supuesto, esto es demasiado simplista, solo tiene la intención de darle una idea directa a alguien que apenas conoce el campo, cada uno de nosotros aquí seguramente sabe que hay muchos métodos entre las categorías aquí, muchos otros no No enumero porque son menos famosos o porque simplemente lo olvidé. Espero que te guste.

carlo
fuente
1

Una forma de organizar esta información es encontrar un buen libro y mirar la tabla de contenido. Esto es una paradoja porque usted preguntó específicamente sobre estadísticas , mientras que la mayoría de los textos introductorios de nivel de posgrado sobre el tema son estadísticos y teoría de la probabilidad juntos. Un libro que estoy leyendo sobre regresión ahora tiene el siguiente TOC:

  • Inferencia frecuente
  • Inferencia bayesiana
  • Prueba de hipótesis y selección de variables
  • Modelos lineales
  • Modelos de regresión general
  • Modelos de datos binarios

  • Modelos de regresión general

  • Preliminares para la regresión no paramétrica [un precursor de ...]
  • Métodos de spline y kernel
  • Regresión no paramétrica con múltiples predictores

(Las secciones restantes son compatibles con las matemáticas y la teoría de la probabilidad)

  • Diferenciación de expresiones matriciales
  • Resultados matriciales
  • Algebra Lineal
  • Distribuciones de probabilidad y funciones generadoras
  • Funciones de variables aleatorias normales
  • Algunos resultados de la estadística clásica
  • Teoría básica de muestras grandes
AdamO
fuente
2
Uno podría considerar un libro así para transmitir una parte de una rama de una disciplina. Sin embargo, a menos que pretenda ser una encuesta enciclopédica de todas las estadísticas, sus encabezados de capítulo apenas podrían considerarse ramas principales del campo.
whuber
3
@whuber estuvo de acuerdo. Tuve cuidado de mencionar que el libro se refería a la regresión, y que no considero que ningún libro sobre el tema de "estadísticas" sea lo suficientemente general o al nivel apropiado para que un estadístico considere que los temas presentados son suficientes. Este ejemplo específico es del texto de Wakefield y es un tratamiento notablemente general (la prueba T con estimación de varianza desigual se discute en el contexto de regresión lineal con covariable binaria y estimación de error robusto, por ejemplo).
AdamO