Las respuestas (definiciones) definidas en Wikipedia son posiblemente un poco crípticas para aquellos que no están familiarizados con las matemáticas / estadísticas superiores.
En términos matemáticos, un modelo estadístico generalmente se considera un par ( ), donde S es el conjunto de observaciones posibles, es decir, el espacio muestral, y P es un conjunto de distribuciones de probabilidad en S .
En probabilidad y estadística, una distribución de probabilidad asigna una probabilidad a cada subconjunto medible de los posibles resultados de un experimento aleatorio, encuesta o procedimiento de inferencia estadística. Se encuentran ejemplos cuyo espacio muestral no es numérico, donde la distribución sería una distribución categórica.
Soy un estudiante de secundaria muy interesado en este campo como hobby y actualmente estoy luchando con las diferencias entre lo que es un statistical model
y unprobability distribution
Mi comprensión actual y muy rudimentaria es esta:
Los modelos estadísticos son intentos matemáticos de aproximar distribuciones medidas
Las distribuciones de probabilidad son descripciones medidas de experimentos que asignan probabilidades a cada posible resultado de un evento aleatorio
La confusión se agrava aún más por la tendencia en la literatura de ver las palabras "distribución" y "modelo" usadas indistintamente, o al menos en situaciones muy similares (por ejemplo, distribución binomial versus modelo binomial)
¿Alguien puede verificar / corregir mis definiciones y tal vez ofrecer un enfoque más formalizado (aunque todavía en términos de inglés simple) a estos conceptos?
fuente
Respuestas:
La distribución de probabilidad es una función matemática que describe una variable aleatoria. Un poco más precisamente, es una función que asigna probabilidades a los números y su salida tiene que estar de acuerdo con los axiomas de probabilidad .
El modelo estadístico es una descripción abstracta e idealizada de algún fenómeno en términos matemáticos utilizando distribuciones de probabilidad. Citando a Wasserman (2013):
En muchos casos, utilizamos distribuciones como modelos (puede consultar este ejemplo ). Puede usar la distribución binomial como modelo de recuentos de cabezas en series de lanzamientos de monedas. En tal caso, suponemos que esta distribución describe, de manera simplificada, los resultados reales. Esto no significa que esta sea la única forma de describir este fenómeno, ni que la distribución binomial sea algo que pueda usarse solo para este propósito. El modelo puede usar una o más distribuciones, mientras que los modelos bayesianos también especifican distribuciones anteriores.
Más formalmente esto es discutido por McCullaugh (2002):
Por lo tanto, los modelos estadísticos usan distribuciones de probabilidad para describir los datos en sus términos. Los modelos paramétricos también se describen en términos de un conjunto finito de parámetros.
Esto no significa que todos los métodos estadísticos necesiten distribuciones de probabilidad. Por ejemplo, la regresión lineal a menudo se describe en términos de suposición de normalidad , pero de hecho es bastante robusta a las desviaciones de la normalidad y necesitamos suposición sobre la normalidad de los errores para los intervalos de confianza y las pruebas de hipótesis. Entonces, para que la regresión funcione, no necesitamos tal suposición, pero para tener un modelo estadístico completamente especificado, debemos describirlo en términos de variables aleatorias, por lo que necesitamos distribuciones de probabilidad. Escribo sobre esto porque a menudo se puede escuchar a las personas decir que usaron el modelo de regresión para sus datos; en la mayoría de los casos, más bien quieren decir que describen los datos en términos de relación lineal entre valores objetivo y predictores usando algunos parámetros, en lugar de insistir en condicional normalidad.
McCullagh, P. (2002). ¿Qué es un modelo estadístico? Anales de estadísticas, 1225-1267.
Wasserman, L. (2013). Todas las estadísticas: un curso conciso en inferencia estadística. Saltador.
fuente
In much of the following, it is important to distinguish between the model as a function and the associated set of distributions
) ¿Estás haciendo un comentario sobre la ambigüedad inherente entre los dos significados que comparten el mismo términomodel
o me falta algo?Piense en como un conjunto de boletos . Puedes escribir cosas en un boleto. Por lo general, un boleto comienza con el nombre de alguna persona u objeto del mundo real que "representa" o "modela". Hay mucho espacio en blanco en cada boleto para escribir otras cosas.S
Puede hacer tantas copias de cada boleto como desee. Un modelo de probabilidad para esta población o proceso del mundo real consiste en hacer una o más copias de cada ticket, mezclarlas y ponerlas en una caja. Si usted, el analista, puede establecer que el proceso de extraer un boleto al azar de este cuadro emula todo el comportamiento importante de lo que está estudiando, entonces puede aprender mucho sobre el mundo al pensar en este cuadro. Debido a que algunos boletos pueden ser más numerosos en la caja que otros, pueden tener diferentes posibilidades de ser sorteados. La teoría de la probabilidad estudia estas posibilidades.PAGS
Cuando los números se escriben en los tickets (de manera consistente), dan lugar a distribuciones (de probabilidad). Una distribución de probabilidad simplemente describe la proporción de tickets en una casilla cuyos números se encuentran dentro de cualquier intervalo dado.
Debido a que generalmente no sabemos exactamente cómo se comporta el mundo, tenemos que imaginar diferentes cajas en las que los boletos aparecen con diferentes frecuencias relativas. El conjunto de estas cajas es . Vemos el mundo como está descrito adecuadamente por el comportamiento de uno de los cuadros en P . Es su objetivo hacer conjeturas razonables sobre qué caja es, en función de lo que ve en los boletos que ha sacado de ella.PAGS PAGS
Como un ejemplo (que es práctico y realista, no un juguete libro de texto), suponga que está estudiando la tasa de una reacción química, ya que varía con la temperatura. Suponga que la teoría de la química predice que dentro del rango de temperaturas entre 0 y 100 grados, la tasa es proporcional a la temperatura.y 0 0 100
Planea estudiar esta reacción a y 100 grados, haciendo varias observaciones a cada temperatura. Por lo tanto, forma un número muy, muy grande de cuadros. Vas a llenar cada caja con boletos. Hay una tasa constante escrita en cada uno. Todas las entradas en cualquier casilla tienen la misma constante de velocidad escrita en ellas. Diferentes cajas usan diferentes constantes de velocidad.0 0 100
Debido a que las observaciones escritas en cada boleto son números, dan lugar a distribuciones de probabilidad. Las suposiciones hechas sobre los cuadros generalmente se expresan en términos de propiedades de esas distribuciones, como si deben promediar a cero, ser simétricas, tener una forma de "curva de campana", no están correlacionadas, o lo que sea.
Eso es realmente todo lo que hay que hacer. De la misma manera que una escala primitiva de doce tonos dio lugar a toda la música clásica occidental, una colección de cajas que contienen boletos es un concepto simple que se puede utilizar de maneras extremadamente ricas y complejas. Puede modelar casi cualquier cosa, desde el lanzamiento de una moneda hasta una biblioteca de videos, bases de datos de interacciones del sitio web, conjuntos de mecánica cuántica y cualquier otra cosa que pueda observarse y grabarse.
fuente
Los modelos estadísticos paramétricos típicos describen cómo los parámetros de una distribución dependen de ciertas cosas, como factores (una variable que tiene valores discretos) y covariables (variables continuas). Por ejemplo, si en una distribución normal supone que la media puede describirse mediante algún número fijo (una "intersección") y algún número (un "coeficiente de regresión") multiplicado por el valor de una covariable, obtendrá un modelo de regresión lineal con Un término de error normalmente distribuido. Para una distribución binomial, un modelo de uso común ("regresión logística"π π/ (1-π) interceptar + β1covariable1+ ...
fuente
Una distribución de probabilidad proporciona toda la información sobre cómo fluctúa una cantidad aleatoria. En la práctica, generalmente no tenemos la distribución de probabilidad completa de nuestra cantidad de interés. Podemos saber o asumir algo al respecto sin saber o asumir que sabemos todo al respecto. Por ejemplo, podríamos suponer que alguna cantidad se distribuye normalmente, pero no sabemos nada sobre la media y la varianza. Luego tenemos una colección de candidatos para la distribución para elegir; en nuestro ejemplo, es todo posible distribuciones normales. Esta colección de distribuciones forma un modelo estadístico. Lo usamos reuniendo datos y luego restringiendo nuestra clase de candidatos para que todos los candidatos restantes sean consistentes con los datos en algún sentido apropiado.
fuente
Un modelo se especifica mediante un PDF, pero no es un PDF.
La distribución de probabilidad (PDF) es una función que asigna probabilidades a los números y su salida tiene que estar de acuerdo con los axiomas de probabilidad, como explicó Tim .
Un modelo está completamente definido por una distribución de probabilidad, pero es más que eso. En el ejemplo de lanzamiento de monedas, nuestro modelo podría ser "la moneda es justa" + "cada lanzamiento es independiente". Este modelo está especificado por un PDF que es un binomio con p = 0.5.
Una distinción entre el modelo y el PDF es que un modelo puede interpretarse como una hipótesis estadística. Por ejemplo, en el lanzamiento de monedas, podemos considerar el modelo donde la moneda es justa (p = 0.5), y que cada lanzamiento es independiente (binomial), y decir que esta es nuestra hipótesis, que queremos probar contra una hipótesis competitiva .
fuente
A model is specified by a PDF
Estoy en desacuerdo. Un modelo también puede ser especificado por múltiples PDF. Y un modelo puede ser especificado sin PDF: piense en algo como un SVM o un árbol de regresión.Usted hace una pregunta muy importante, Alan, y ha recibido algunas buenas respuestas arriba. Me gustaría ofrecer una respuesta más simple, y también indicar una dimensión adicional a la distinción que las respuestas anteriores no han abordado. Por simplicidad, todo lo que diré aquí se relaciona con los parámetros. modelos estadísticos .
Entonces, mi breve respuesta # 1 a su pregunta es: un modelo estadístico es una familia de distribuciones.
El punto adicional que quería hacer se relaciona con el calificador, estadístico . Como Judea Pearl señala en su "regla de oro del análisis causal" [1, p350],
Por lo tanto, mi respuesta # 2 a su pregunta es: los modelos generalmente incorporan ideas causales que no pueden expresarse en términos puramente distributivos.
[1]: Perla, Judea. Causalidad: modelos, razonamiento e inferencia. 2da edición. Cambridge, Reino Unido; Nueva York: Cambridge University Press, 2009. Enlace a §11.3.5, incluidas las citadas p. 351.
fuente
causal
? ¿Hay algún significado más matizado o simplemente se refiere a la noción decausality
y las relaciones vinculadas entrecauses
yeffects
? Gracias por tu respuesta, por cierto.