En términos simples, ¿cuál es la diferencia entre un modelo y una distribución?

28

Las respuestas (definiciones) definidas en Wikipedia son posiblemente un poco crípticas para aquellos que no están familiarizados con las matemáticas / estadísticas superiores.

En términos matemáticos, un modelo estadístico generalmente se considera un par ( ), donde es el conjunto de observaciones posibles, es decir, el espacio muestral, y es un conjunto de distribuciones de probabilidad en $S, \mathcal{P}$ $S$ $\mathcal{P}$ $S$ .

En probabilidad y estadística, una distribución de probabilidad asigna una probabilidad a cada subconjunto medible de los posibles resultados de un experimento aleatorio, encuesta o procedimiento de inferencia estadística. Se encuentran ejemplos cuyo espacio muestral no es numérico, donde la distribución sería una distribución categórica.

Soy un estudiante de secundaria muy interesado en este campo como hobby y actualmente estoy luchando con las diferencias entre lo que es un statistical modely unprobability distribution

Mi comprensión actual y muy rudimentaria es esta:

Los modelos estadísticos son intentos matemáticos de aproximar distribuciones medidas
Las distribuciones de probabilidad son descripciones medidas de experimentos que asignan probabilidades a cada posible resultado de un evento aleatorio

La confusión se agrava aún más por la tendencia en la literatura de ver las palabras "distribución" y "modelo" usadas indistintamente, o al menos en situaciones muy similares (por ejemplo, distribución binomial versus modelo binomial)

¿Alguien puede verificar / corregir mis definiciones y tal vez ofrecer un enfoque más formalizado (aunque todavía en términos de inglés simple) a estos conceptos?

distributions model terminology AlanSTACK
fuente

1

En pocas palabras: no hay absolutamente ninguna diferencia entre un modelo estadístico y una distribución de probabilidad. Cada modelo estadístico describe una distribución de probabilidad y viceversa. No dejes que te confundan con textos largos.

Cagdas Ozgenc

3

@Cagdas acuerdo con la definición citada en la pregunta, no es una diferencia: un modelo estadístico es una colección organizada particular de distribuciones de probabilidad. Cuando solo se evidencia una distribución de probabilidad, ya no estamos haciendo estadísticas en absoluto, porque el objetivo del análisis estadístico se ha logrado: ¡conocemos la distribución!

whuber

2

@cagdas Wikipedia hace compañía con los mejores textos. Estoy totalmente de acuerdo con eso.

whuber

44

@CagdasOzgenc, ¿por qué no presentar alguna evidencia para corroborar sus afirmaciones claras y definidas? La prueba de la autoridad rara vez (si alguna) es aceptable. Sin evidencia es difícil (si no imposible) tener una discusión productiva; Las afirmaciones sin fundamento rara vez son mucho más que ruido.

Richard Hardy

2

@RichardHardy La pregunta hizo "términos simples", y mira las respuestas que obtuvo. Disculpe pero odio ver sufrir a los estudiantes solo porque alguien decide presumir. La respuesta es tan simple como 2 + 2 = 4, y realmente no creo que requiera una referencia autorizada de 20 páginas.

Cagdas Ozgenc

25

La distribución de probabilidad es una función matemática que describe una variable aleatoria. Un poco más precisamente, es una función que asigna probabilidades a los números y su salida tiene que estar de acuerdo con los axiomas de probabilidad .

El modelo estadístico es una descripción abstracta e idealizada de algún fenómeno en términos matemáticos utilizando distribuciones de probabilidad. Citando a Wasserman (2013):

Un modelo estadístico es un conjunto de distribuciones (o densidades o funciones de regresión). Un modelo paramétrico es un conjunto $\mathfrak{F}$ $\mathfrak{F}$ que puede ser parametrizado por un número finito de parámetros. [...]

En general, un modelo paramétrico toma la forma

$F = {f (x; θ) : θ \in Θ}$ $\mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \}$
donde es un parámetro desconocido (o vector de parámetros) que puede tomar valores en el espacio de parámetros . Si es un vector pero solo estamos interesados en un componente de , llamamos a los parámetros restantes parámetros molestos . Un modelo no paramétrico es un conjunto que no puede ser parametrizado por un número finito de parámetros. $\theta$ $\Theta$ $\theta$ $\theta$ $\mathfrak{F}$

En muchos casos, utilizamos distribuciones como modelos (puede consultar este ejemplo ). Puede usar la distribución binomial como modelo de recuentos de cabezas en series de lanzamientos de monedas. En tal caso, suponemos que esta distribución describe, de manera simplificada, los resultados reales. Esto no significa que esta sea la única forma de describir este fenómeno, ni que la distribución binomial sea algo que pueda usarse solo para este propósito. El modelo puede usar una o más distribuciones, mientras que los modelos bayesianos también especifican distribuciones anteriores.

Más formalmente esto es discutido por McCullaugh (2002):

Según las teorías actualmente aceptadas [Cox y Hinkley (1974), Capítulo 1; Lehmann (1983), Capítulo 1; Barndorff-Nielsen y Cox (1994), Sección 1.1; Bernardo y Smith (1994), Capítulo 4] un modelo estadístico es un conjunto de distribuciones de probabilidad en el espacio de muestra . A parametrizar modelo estadístico es un parámetro establece junto con una función de , que asigna a cada punto de parámetros una distribución de probabilidad en . Aquí es el conjunto de todos $\mathcal{S}$ $\Theta$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $\mathcal{\theta \in \Theta}$ $P \theta$ $\mathcal{S}$ $\mathcal{P}(\mathcal{S})$ distribuciones de probabilidad en . En gran parte de lo siguiente, es importante distinguir entre el modelo como una función , y el conjunto asociado de distribuciones . $\mathcal{S}$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $P\Theta \subset \mathcal{P} (\mathcal{S})$

Por lo tanto, los modelos estadísticos usan distribuciones de probabilidad para describir los datos en sus términos. Los modelos paramétricos también se describen en términos de un conjunto finito de parámetros.

Esto no significa que todos los métodos estadísticos necesiten distribuciones de probabilidad. Por ejemplo, la regresión lineal a menudo se describe en términos de suposición de normalidad , pero de hecho es bastante robusta a las desviaciones de la normalidad y necesitamos suposición sobre la normalidad de los errores para los intervalos de confianza y las pruebas de hipótesis. Entonces, para que la regresión funcione, no necesitamos tal suposición, pero para tener un modelo estadístico completamente especificado, debemos describirlo en términos de variables aleatorias, por lo que necesitamos distribuciones de probabilidad. Escribo sobre esto porque a menudo se puede escuchar a las personas decir que usaron el modelo de regresión para sus datos; en la mayoría de los casos, más bien quieren decir que describen los datos en términos de relación lineal entre valores objetivo y predictores usando algunos parámetros, en lugar de insistir en condicional normalidad.

McCullagh, P. (2002). ¿Qué es un modelo estadístico? Anales de estadísticas, 1225-1267.

Wasserman, L. (2013). Todas las estadísticas: un curso conciso en inferencia estadística. Saltador.

Tim
fuente

44

@ JCLeitão por eso agregué el aviso;) El OLS clásico solo se trata de ajustar la línea. Los supuestos de normalidad son solo sobre el ruido, mientras que la idea central es que estamos modelando E (y) como una función lineal de X. La normalidad es necesaria para los intervalos de confianza y las pruebas, pero la regresión se trata de ajustar la línea y los errores son de menor importancia. (Hablando libremente.)

Tim

Gracias por su respuesta. ¿Podría proporcionar 2 definiciones concisas para resumir? (tampoco entiendo la última línea

In much of the following, it is important to distinguish between the model as a function and the associated set of distributions

) ¿Estás haciendo un comentario sobre la ambigüedad inherente entre los dos significados que comparten el mismo término modelo me falta algo?

AlanSTACK

@Alan dos definiciones concisas se proporcionan en los primeros dos párrafos, mientras que una más rigurosa en la cita y referencias: ¿podría aclarar lo que no está claro? En cuanto a la última línea de cita: básicamente dice que el modelo se define en términos de distribuciones de probabilidad y parámetros y es bueno recordar que tiene esos dos aspectos, a veces es bueno distinguirlos. Recomiendo el documento citado para una discusión rigurosa (está disponible gratuitamente bajo el enlace).

Tim

8

Piense en como un conjunto de boletos . Puedes escribir cosas en un boleto. Por lo general, un boleto comienza con el nombre de alguna persona u objeto del mundo real que "representa" o "modela". Hay mucho espacio en blanco en cada boleto para escribir otras cosas. $\mathcal{S}$

Puede hacer tantas copias de cada boleto como desee. Un modelo de probabilidad para esta población o proceso del mundo real consiste en hacer una o más copias de cada ticket, mezclarlas y ponerlas en una caja. Si usted, el analista, puede establecer que el proceso de extraer un boleto al azar de este cuadro emula todo el comportamiento importante de lo que está estudiando, entonces puede aprender mucho sobre el mundo al pensar en este cuadro. Debido a que algunos boletos pueden ser más numerosos en la caja que otros, pueden tener diferentes posibilidades de ser sorteados. La teoría de la probabilidad estudia estas posibilidades. $\mathbb{P}$

Cuando los números se escriben en los tickets (de manera consistente), dan lugar a distribuciones (de probabilidad). Una distribución de probabilidad simplemente describe la proporción de tickets en una casilla cuyos números se encuentran dentro de cualquier intervalo dado.

Debido a que generalmente no sabemos exactamente cómo se comporta el mundo, tenemos que imaginar diferentes cajas en las que los boletos aparecen con diferentes frecuencias relativas. El conjunto de estas cajas es . Vemos el mundo como está descrito adecuadamente por el comportamiento de uno de los cuadros en . Es su objetivo hacer conjeturas razonables sobre qué caja es, en función de lo que ve en los boletos que ha sacado de ella. $\mathcal{P}$ $\mathcal{P}$

Como un ejemplo (que es práctico y realista, no un juguete libro de texto), suponga que está estudiando la tasa de una reacción química, ya que varía con la temperatura. Suponga que la teoría de la química predice que dentro del rango de temperaturas entre y grados, la tasa es proporcional a la temperatura. $y$ $0$ $100$

Planea estudiar esta reacción a y grados, haciendo varias observaciones a cada temperatura. Por lo tanto, forma un número muy, muy grande de cuadros. Vas a llenar cada caja con boletos. Hay una tasa constante escrita en cada uno. Todas las entradas en cualquier casilla tienen la misma constante de velocidad escrita en ellas. Diferentes cajas usan diferentes constantes de velocidad. $0$ $100$

$0$ $100$ $y_0$ $y_{100}$ $y_0$ $y_{100}$ Las observaciones representan posibles resultados observables de su experimento. Dentro de la caja, vaya cada uno de estos conjuntos de estos tickets: es un modelo de probabilidad de lo que podría observar para una constante de tasa dada.

$y_0$ $y_{100}$

Debido a que las observaciones escritas en cada boleto son números, dan lugar a distribuciones de probabilidad. Las suposiciones hechas sobre los cuadros generalmente se expresan en términos de propiedades de esas distribuciones, como si deben promediar a cero, ser simétricas, tener una forma de "curva de campana", no están correlacionadas, o lo que sea.

Eso es realmente todo lo que hay que hacer. De la misma manera que una escala primitiva de doce tonos dio lugar a toda la música clásica occidental, una colección de cajas que contienen boletos es un concepto simple que se puede utilizar de maneras extremadamente ricas y complejas. Puede modelar casi cualquier cosa, desde el lanzamiento de una moneda hasta una biblioteca de videos, bases de datos de interacciones del sitio web, conjuntos de mecánica cuántica y cualquier otra cosa que pueda observarse y grabarse.

whuber
fuente

3

$\pi$

Los modelos estadísticos paramétricos típicos describen cómo los parámetros de una distribución dependen de ciertas cosas, como factores (una variable que tiene valores discretos) y covariables (variables continuas). Por ejemplo, si en una distribución normal supone que la media puede describirse mediante algún número fijo (una "intersección") y algún número (un "coeficiente de regresión") multiplicado por el valor de una covariable, obtendrá un modelo de regresión lineal con Un término de error normalmente distribuido. Para una distribución binomial, un modelo de uso común ("regresión logística" $\pi$ $\pi/(1-\pi)$ $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$

Björn
fuente

2

Sí, pero ... El modelo no se trata solo de parámetros, sino que también puede referirse a la estructura del problema (por ejemplo, modelo probabilístico que se asemeja al proceso de generación de datos asumido); También hay modelos no paramétricos.

Tim

2

Una distribución de probabilidad proporciona toda la información sobre cómo fluctúa una cantidad aleatoria. En la práctica, generalmente no tenemos la distribución de probabilidad completa de nuestra cantidad de interés. Podemos saber o asumir algo al respecto sin saber o asumir que sabemos todo al respecto. Por ejemplo, podríamos suponer que alguna cantidad se distribuye normalmente, pero no sabemos nada sobre la media y la varianza. Luego tenemos una colección de candidatos para la distribución para elegir; en nuestro ejemplo, es todo posible distribuciones normales. Esta colección de distribuciones forma un modelo estadístico. Lo usamos reuniendo datos y luego restringiendo nuestra clase de candidatos para que todos los candidatos restantes sean consistentes con los datos en algún sentido apropiado.

Ian
fuente

2

Un modelo se especifica mediante un PDF, pero no es un PDF.

La distribución de probabilidad (PDF) es una función que asigna probabilidades a los números y su salida tiene que estar de acuerdo con los axiomas de probabilidad, como explicó Tim .

Un modelo está completamente definido por una distribución de probabilidad, pero es más que eso. En el ejemplo de lanzamiento de monedas, nuestro modelo podría ser "la moneda es justa" + "cada lanzamiento es independiente". Este modelo está especificado por un PDF que es un binomio con p = 0.5.

$P(x_1, x_2, x_3, ...)$

Una distinción entre el modelo y el PDF es que un modelo puede interpretarse como una hipótesis estadística. Por ejemplo, en el lanzamiento de monedas, podemos considerar el modelo donde la moneda es justa (p = 0.5), y que cada lanzamiento es independiente (binomial), y decir que esta es nuestra hipótesis, que queremos probar contra una hipótesis competitiva .

$p$ $p$

Jorge Leitao
fuente

¿Puedes dar más detalles sobre tu última oración? Para mí, eso parece ser una parte importante de las estadísticas no paramétricas.

Ian

Siempre interpreté los modelos no paramétricos como menos restrictivos en el PDF de x_i, pero todavía requieren un PDF para las estadísticas que usan. Por ejemplo, la correlación de rango de Kendal supone la normalidad para calcular el valor p . Pero podría ser que hay un contraejemplo. Estaria interesado.

Jorge Leitao

Simplemente no entiendo a qué te refieres cuando dices "no tiene sentido hablar de archivos PDF competidores". Esto es exactamente lo que realmente estamos haciendo, incluso en estadísticas paramétricas: tenemos un montón de archivos PDF que creemos que podrían ser válidos para el problema, tomamos algunos datos y concluimos de los datos que algún subconjunto de nuestros archivos PDF es mejor. Luego cuantificamos lo que queremos decir con "mejor". (Además, en el contexto elemental, realmente no deberías usar "PDF" para todo. En el sentido distributivo, esto finalmente funciona, pero esta es una maquinaria bastante sofisticada ...)

Ian

A model is specified by a PDFEstoy en desacuerdo. Un modelo también puede ser especificado por múltiples PDF. Y un modelo puede ser especificado sin PDF: piense en algo como un SVM o un árbol de regresión.

Ricardo Cruz

2

Usted hace una pregunta muy importante, Alan, y ha recibido algunas buenas respuestas arriba. Me gustaría ofrecer una respuesta más simple, y también indicar una dimensión adicional a la distinción que las respuestas anteriores no han abordado. Por simplicidad, todo lo que diré aquí se relaciona con los parámetros. modelos estadísticos .

$y = a x^2 + b x + c$ $y = m x + b$ $F = -k x$ $m$ $b$ $k$

Entonces, mi breve respuesta # 1 a su pregunta es: un modelo estadístico es una familia de distribuciones.

El punto adicional que quería hacer se relaciona con el calificador, estadístico . Como Judea Pearl señala en su "regla de oro del análisis causal" [1, p350],

No se puede establecer un reclamo causal por un método puramente estadístico, ya sea puntajes de propensión, regresión, estratificación o cualquier otro diseño basado en la distribución.

$F=-kx$ es decir, declaraciones sobre distribuciones de probabilidad.

Por lo tanto, mi respuesta # 2 a su pregunta es: los modelos generalmente incorporan ideas causales que no pueden expresarse en términos puramente distributivos.

[1]: Perla, Judea. Causalidad: modelos, razonamiento e inferencia. 2da edición. Cambridge, Reino Unido; Nueva York: Cambridge University Press, 2009. Enlace a §11.3.5, incluidas las citadas p. 351.

David C. Norris
fuente

Perdona mi ignorancia, pero ¿qué quieres decir con la palabra causal? ¿Hay algún significado más matizado o simplemente se refiere a la noción de causalityy las relaciones vinculadas entre causesy effects? Gracias por tu respuesta, por cierto.

AlanSTACK

F

$F$

x

$x$

F = - k x

$F=-kx$

=

$=$

David C. Norris

En términos simples, ¿cuál es la diferencia entre un modelo y una distribución?

Respuestas: