¿Cuál es la diferencia entre probabilidad y estadística?

Respuestas:

114

La respuesta breve a esto que he escuchado de Persi Diaconis es la siguiente: los problemas considerados por la probabilidad y las estadísticas son inversos entre sí. En la teoría de la probabilidad consideramos algún proceso subyacente que tiene cierta aleatoriedad o incertidumbre modelada por variables aleatorias, y descubrimos qué sucede. En estadística observamos algo que ha sucedido e intentamos descubrir qué proceso subyacente explicaría esas observaciones.

Mark Meckes
fuente
2
Entonces, las estadísticas observan lo que sucede en el mundo físico, teorizan sobre el proceso subyacente, y luego de haber encontrado el proceso, lo usan en el sentido de probabilidad para predecir lo que sucederá después.
hslc
No soy un estadístico, pero, según tengo entendido, diría que sí, esa parte de lo que hace la estadística.
Mark Meckes
16
¿Inducción vs deducción?
Paolo
66
Como dijo Paolo, la teoría de la probabilidad se ocupa principalmente de la parte deductiva, las estadísticas con la parte inductiva de los procesos de modelado con incertidumbre. Quizás sea interesante mencionar que si uno piensa que el razonamiento inductivo plausible debería ser consistente, entonces en realidad el resultado son estadísticas bayesianas, y más interesante esto puede derivarse de la teoría de la probabilidad. Entonces, la estadística bayesiana es básicamente una teoría de probabilidad aplicada, por así decirlo.
Thies Heidecke
1
@Paolo Inferencia estadística se considera "Estadísticas inductivas"
kervin
77

Me gusta el ejemplo de una jarra de gominolas rojas y verdes.

Un probabilista comienza por conocer la proporción de cada uno y pregunta la probabilidad de sacar un gominola roja. Un estadístico infiere la proporción de gominolas rojas al tomar muestras del frasco.

John D. Cook
fuente
¿Pero no es eso solo formulación? Un probabilista podría preguntar "dado que saqué tres frijoles rojos, ¿cuál es la probabilidad de que la proporción sea cincuenta y cincuenta?"
Thomas Ahle
2
@ThomasAhle: Esa no es una pregunta de probabilidad bien definida a menos que asuma algún modelo probabilístico subyacente para la distribución original de colores.
Mark Meckes
55

Es engañoso decir simplemente que las estadísticas son simplemente el inverso de la probabilidad. Sí, las preguntas estadísticas son preguntas de probabilidad inversa, pero son problemas inversos mal planteados , y esto hace una gran diferencia en términos de cómo se abordan.

La probabilidad es una rama de la matemática pura: las preguntas de probabilidad se pueden plantear y resolver utilizando el razonamiento axiomático, y por lo tanto hay una respuesta correcta a cualquier pregunta de probabilidad.

Las preguntas estadísticas se pueden convertir en preguntas de probabilidad mediante el uso de modelos de probabilidad . Una vez que hacemos ciertas suposiciones sobre el mecanismo que genera los datos, podemos responder preguntas estadísticas usando la teoría de probabilidad. SIN EMBARGO, la formulación y verificación adecuadas de estos modelos de probabilidad es tan importante, o incluso más importante, que el análisis posterior del problema utilizando estos modelos.

Se podría decir que las estadísticas constan de dos partes. La primera parte es la cuestión de cómo formular y evaluar modelos probabilísticos para el problema; Este esfuerzo se encuentra dentro del dominio de la "filosofía de la ciencia". La segunda parte es la cuestión de obtener respuestas después de que se haya asumido cierto modelo. Esta parte de la estadística es, de hecho, una cuestión de teoría de la probabilidad aplicada y, en la práctica, también contiene una buena cantidad de análisis numérico.

Ver: http://bactra.org/reviews/error/

charles.y.zheng
fuente
2
Te amo por esta respuesta
badatmath
16

Me gusta esto de las apuestas calculadas de Steve Skienna (vea el enlace para una discusión completa):

En resumen, la teoría de la probabilidad nos permite encontrar las consecuencias de un mundo ideal dado, mientras que la teoría estadística nos permite medir hasta qué punto nuestro mundo es ideal.

ars
fuente
13

La probabilidad es una ciencia pura (matemática), la estadística se trata de datos. Están conectados ya que la probabilidad forma algún tipo de fundamento para las estadísticas, proporcionando ideas básicas.


fuente
3
Entonces, ¿la probabilidad es matemática pura y la estadística es matemática aplicada?
hslc
44
Las estadísticas pueden aplicarse y no; Aún así, el concepto de datos siempre está presente.
13

La Tabla 3.1 de Bioestadística intuitiva responde esta pregunta con el diagrama que se muestra a continuación. Tenga en cuenta que todas las flechas apuntan a la derecha para probabilidad, y apuntan a la izquierda para estadísticas.

PROBABILIDAD

General ---> Específico

Población ---> Muestra

Modelo ---> Datos

ESTADÍSTICA

General <--- Específico

Población <--- Muestra

Modelo <--- Datos

Harvey Motulsky
fuente
1
Entonces, ¿estadísticas es sinónimo de análisis de datos?
hslc
3
No veo ninguna distinción.
Harvey Motulsky
3
Algunos análisis de datos no se basan en estadísticas frecuentas.
p.
11

La probabilidad responde preguntas sobre lo que sucederá, las estadísticas responden preguntas sobre lo que sucedió.

Justin Bozonier
fuente
3
Sin embargo, según esta definición, un intervalo de predicción es probabilidad más que estadística.
Glen_b
10

La probabilidad se trata de cuantificar la incertidumbre, mientras que las estadísticas explican la variación en alguna medida de interés (por ejemplo, ¿por qué varían los niveles de ingresos?) Que observamos en el mundo real.

Explicamos la variación usando algunos factores observables (por ejemplo, género, nivel educativo, edad, etc. para el ejemplo de ingresos). Sin embargo, dado que no podemos tener en cuenta todos los posibles factores que afectan el ingreso, dejamos cualquier variación inexplicable a errores aleatorios (que es donde entra en juego la incertidumbre cuantificadora).

Dado que atribuimos "Variación = Efecto de factores observables + Efecto de errores aleatorios", necesitamos las herramientas proporcionadas por la probabilidad para dar cuenta del efecto de los errores aleatorios en la variación que observamos.

Algunos ejemplos siguen:

Incertidumbre cuantitativa

Ejemplo 1: Tira un dado de 6 lados. ¿Cuál es la probabilidad de obtener un 1?

Ejemplo 2: ¿Cuál es la probabilidad de que el ingreso anual de una persona adulta seleccionada al azar de los Estados Unidos sea inferior a $ 40,000?

Explicando la variación

Ejemplo 1: Observamos que el ingreso anual de una persona varía. ¿Qué factores explican la variación en el ingreso de una persona?

Claramente, no podemos dar cuenta de todos los factores. Por lo tanto, atribuimos el ingreso de una persona a algunos factores observables (por ejemplo, nivel de educación, género, edad, etc.) y dejamos cualquier variación restante a la incertidumbre (o en el lenguaje de las estadísticas: a errores aleatorios).

Ejemplo 2: Observamos que algunos consumidores eligen Tide la mayoría de las veces que compran un detergente, mientras que otros consumidores eligen la marca de detergente xyz. ¿Qué explica la variación en la elección? Atribuimos la variación en las opciones a algunos factores observables, como el precio, el nombre de la marca, etc. y dejamos cualquier variación sin explicación a errores aleatorios (o incertidumbre).

Alexis
fuente
1
¿Qué pasa si los errores aleatorios se vuelven mayores que los factores observables con el tiempo?
hslc
En ese caso, vuelve a trabajar su modelo, ya que ya no es coherente con la realidad.
8

La probabilidad es el abrazo de la incertidumbre, mientras que las estadísticas son una búsqueda empírica y voraz de la verdad (los malditos mentirosos excluidos, por supuesto).


fuente
Aquí estoy pensando en toda la probabilidad frecuentista / bayesiana y en todas las estadísticas descriptivas / exploratorias / inferenciales.
7

Similar a lo que dijo Mark, las estadísticas históricamente se llamaban probabilidad inversa , ya que las estadísticas intentan inferir las causas de un evento dadas las observaciones, mientras que la probabilidad tiende a ser al revés.

raegtin
fuente
6

La probabilidad de un evento es su frecuencia relativa a largo plazo. Básicamente, te dice la posibilidad de, por ejemplo, obtener una 'cara' en el próximo lanzamiento de una moneda, o obtener un '3' en la próxima tirada de un dado.

Una estadística es cualquier medida numérica calculada a partir de una muestra de la población. Por ejemplo, la media de la muestra. Usamos esto como una estadística que estima la media de la población, que es un parámetro. Básicamente, te está dando algún tipo de resumen de una muestra.

  • Solo puede obtener una estadística de una muestra; de lo contrario, si calcula una medida numérica en una población, se llama parámetro de población.
Tony Breyal
fuente
6

Los estudios de probabilidad, bueno, cuán probables son los eventos. Intuitivamente sabes lo que es la probabilidad.

La estadística es el estudio de los datos: mostrarlos (usando herramientas como gráficos), resumirlos (usar medias y desviaciones estándar, etc.), llegar a conclusiones sobre el mundo del que se extrajeron esos datos (ajustar líneas a datos, etc.), y - esta es la clave - cuantificando qué tan seguros podemos estar de nuestras conclusiones.

Para cuantificar cuán seguros podemos estar de nuestras conclusiones, necesitamos usar Probabilidad. Digamos que tiene datos del año pasado sobre la lluvia en la región donde vive y donde yo vivo. El año pasado llovió un promedio de 1/4 de pulgada por semana donde vives, y 3/8 de pulgada donde vivo. Entonces, podemos decir que la lluvia en mi región es en promedio un 50% mayor que donde vives, ¿verdad? No tan rápido, Sparky. Podría ser una coincidencia: quizás llueve mucho el año pasado donde vivo. Podemos usar Probabilidad para estimar la confianza que podemos tener en nuestra conclusión de que mi casa es 50% más húmeda que la suya.

Básicamente, se puede decir que la probabilidad es la base matemática de la teoría de la estadística.

Carlos Accioly
fuente
5

En la teoría de la probabilidad, se nos dan variables aleatorias X1, X2, ... de alguna manera, y luego estudiamos sus propiedades, es decir, calculamos la probabilidad P {X1 \ en B1}, estudiamos la convergencia de X1, X2, ... etc. .

En estadística matemática, se nos dan n realizaciones de alguna variable aleatoria X, y un conjunto de distribuciones D; El problema es encontrar entre las distribuciones de D uno que es más probable que genere los datos que observamos.


fuente
Entonces, ¿solo podemos encontrar patrones que estábamos buscando en primer lugar?
hslc
4

En probabilidad, la distribución es conocida y conocible de antemano: comienza con una función de distribución de probabilidad conocida (o similar), y muestra de ella.

En estadística, la distribución es desconocida de antemano. Incluso puede ser incognoscible. Los supuestos se hipotetizan sobre la distribución de probabilidad detrás de los datos observados, para poder aplicar la teoría de probabilidad a esos datos para saber si una hipótesis nula sobre esos datos puede ser rechazada o no.

Existe una discusión filosófica sobre si existe la probabilidad en el mundo real, o si es un producto ideal de nuestra imaginación matemática, y todas nuestras observaciones solo pueden ser estadísticas.

Números de energía
fuente
3

La estadística es la búsqueda de la verdad frente a la incertidumbre. La probabilidad es la herramienta que nos permite cuantificar la incertidumbre.

(He proporcionado otra respuesta más larga que suponía que lo que se preguntaba era algo como "¿cómo se lo explicarías a tu abuela?")

Carlos Accioly
fuente
3

Respuesta # 1: La estadística está parametrizada Probabilidad. Cualquier libro sobre Probabilidad teórica de medidas le informará sobre el triplete de Probabilidad: . Pero si está haciendo estadísticas, debe agregar a lo anterior: , es decir, para diferentes valores de , obtiene diferentes medidas de probabilidad (diferentes distribuciones).θ ( Ω , F , P θ ) θ(Ω,F,P)θ(Ω,F,Pθ)θ

Respuesta # 2: La probabilidad se trata de avanzar; Las estadísticas se trata de retroceder. La probabilidad se trata del proceso de generación (simulación) de datos dado un valor de . Las estadísticas tratan sobre el proceso de tomar datos para sacar conclusiones sobre .θθθ

Descargo de responsabilidad: los anteriores son respuestas matemáticas. En realidad, gran parte de las estadísticas también se trata de diseñar / descubrir modelos apropiados, cuestionar modelos existentes, diseñar experimentos, tratar con datos imperfectos, etc. "Todos los modelos están equivocados".

gusl
fuente
44
Análogamente, si se le pregunta "¿qué es la química?" podríamos responder que es un conjunto de ecuaciones diferenciales. Una descripción de la teoría matemática puede darnos una pequeña idea de lo que trata un sujeto, pero no es el sujeto en sí.
whuber
3

Probabilidad : dados los parámetros conocidos, encuentre la probabilidad de observar un conjunto particular de datos.

Estadísticas : dado un conjunto particular de datos observados, haga una inferencia sobre cuáles podrían ser los parámetros.

La estadística es "más subjetiva" y "más arte que ciencia" (en relación con la probabilidad).

Example_

Tenemos una moneda que se puede lanzar. Sea la proporción de lanzamientos de monedas que son caras.p

p=12HHH

18

HHHp

Diferentes estadísticos darán respuestas diferentes, a menudo largas.

Kenny LJ
fuente
3

La diferencia entre las probabilidades y las estadísticas es que en las probabilidades no hay error. Estamos seguros de la probabilidad porque sabemos exactamente cuántos lados tiene una moneda o cuántos caramelos azules hay en el florero. Pero en las estadísticas examinamos una parte de una población de lo que sea que examinemos, y de esto, tratamos de ver la verdad, pero siempre hay un% de conclusiones erróneas. Lo único que es cierto en las estadísticas es que es un error%, que de hecho es una probabilidad.

TheodoreM
fuente
2

El texto Fundamentos de las estadísticas de Savage ha sido citado más de 12000 veces en Google Scholar. [3] Dice lo siguiente.

Se acuerda por unanimidad que las estadísticas dependen de alguna manera de la probabilidad. Pero, en cuanto a qué es la probabilidad y cómo está relacionada con las estadísticas, rara vez ha habido un desacuerdo y una interrupción de la comunicación tan completos desde la Torre de Babel. Sin duda, gran parte del desacuerdo es meramente terminológico y desaparecería con un análisis suficientemente agudo.

https://en.wikipedia.org/wiki/Foundations_of_statistics

Por lo tanto, el punto de que la teoría de la probabilidad es una base de estadística apenas se discute. Todo lo demás es juego limpio.

Pero al tratar de ser más útil, práctico con una respuesta ...

Sin embargo, la teoría de la probabilidad contiene mucho de interés matemático y no directamente relevante para las estadísticas. Además, muchos temas en estadística son independientes de la teoría de probabilidad

https://en.wikipedia.org/wiki/Probability_and_statistics

Lo anterior no es exhaustivo ni autoritario de ninguna manera, pero creo que es útil.

Comúnmente me ha ayudado a ver cosas como ...

Matemática discreta >> Teoría de la probabilidad >> Estadística

Con cada uno siendo muy utilizado, en promedio, en los cimientos del siguiente. Es decir, hay grandes intersecciones en la forma en que estudiamos los fundamentos del próximo.

PD. Hay estadísticas inductivas y deductivas, por lo que no es ahí donde radica la diferencia.

Kervin
fuente
0

Muchas personas y matemáticos dicen que 'ESTADÍSTICAS es lo contrario de PROBABILIDAD', pero no es particularmente correcto. La forma de acercarse o el método para resolver estos 2 son completamente diferentes, pero están INTERCONECTADOS .

Me gustaría referirme a mi amigo John D Cook .....

"Me gusta el ejemplo de una jarra de gominolas rojas y verdes.

Un probabilista comienza por conocer la proporción de cada uno y digamos que encuentra la probabilidad de sacar un gominola roja. Un estadístico infiere la proporción de gominolas rojas al tomar muestras del frasco ".

Ahora, el probabilista usa la proporción de la gominola roja obtenida por muestreo del frasco para encontrar la probabilidad de extraer una gomita roja del frasco

Considere este ejemplo ---- >>>

En un examen, el 30% de los estudiantes reprobaron física, el 25% reprobó matemática, el 12% reprobó tanto física como matemática. Un estudiante es seleccionado al azar y encuentra la probabilidad de que el estudiante haya fallado en Física, si se sabe que falló en matemáticas.

La suma anterior es un problema de probabilidad, pero si miramos cuidadosamente, encontraremos que la suma se proporciona con algunos datos estadísticos

30% de estudiantes reprobaron física, 25% "" "matemáticas" ''. Estas son básicamente frecuencias si se calculan los porcentajes. Por lo tanto, se nos proporcionan datos estadísticos que a su vez nos ayudan a encontrar la probabilidad

ASÍ QUE LA PROBABILIDAD Y LAS ESTADÍSTICAS ESTÁN MUY MUCHO INTERCONECTADAS O EN TANTO, PODEMOS DECIR QUE LA PROBABILIDAD ES DEPENDIENTE MUCHO DE LAS ESTADÍSTICAS

Hirak Mondal
fuente
0

El término "estadísticas" está bellamente explicado por JC Maxwell en el artículo Moléculas (en Nature 8, 1873, pp. 437-441). Permítanme citar el pasaje relevante:

Cuando los miembros que trabajan en la Sección F obtienen un Informe del Censo, o cualquier otro documento que contenga datos numéricos de Ciencias Económicas y Sociales, comienzan por distribuir a toda la población en grupos, según la edad, el impuesto sobre la renta, la educación, creencias religiosas o condenas penales. El número de individuos es demasiado grande para permitir que rastreen la historia de cada uno por separado, de modo que, para reducir su trabajo dentro de los límites humanos, concentren su atención en un pequeño número de grupos artificiales. El número variable de individuos en cada grupo, y no el estado variable de cada individuo, es el dato primario desde el cual trabajan.

Este, por supuesto, no es el único método para estudiar la naturaleza humana. Podemos observar la conducta de hombres individuales y compararla con la conducta que su carácter anterior y sus circunstancias actuales, de acuerdo con la mejor teoría existente, nos llevarían a esperar. Quienes practican este método se esfuerzan por mejorar su conocimiento de los elementos de la naturaleza humana, de la misma manera que un astrónomo corrige los elementos de un planeta comparando su posición real con la deducida de los elementos recibidos. Por lo tanto, el estudio de la naturaleza humana realizado por padres y maestros de escuela, por historiadores y estadistas, debe distinguirse del realizado por los registradores y tabuladores, y por aquellos estadistas que ponen su fe en las cifras. Uno puede llamarse el método histórico y el otro el método estadístico.

Las ecuaciones de dinámica expresan completamente las leyes del método histórico aplicado a la materia, pero la aplicación de estas ecuaciones implica un conocimiento perfecto de todos los datos. Pero la porción más pequeña de materia que podemos someter a experimentación consiste en millones de moléculas, ninguna de las cuales se vuelve individualmente sensible para nosotros. Por lo tanto, no podemos determinar el movimiento real de ninguna de estas moléculas, de modo que estamos obligados a abandonar el estricto método histórico y a adoptar el método estadístico de tratar con grandes grupos de moléculas.

Da esta explicación del método estadístico en varios otros trabajos. Por ejemplo, "En el método estadístico de investigación, no seguimos el sistema durante su movimiento, pero fijamos nuestra atención en una fase particular y determinamos si el sistema está en esa fase o no, y también cuando entra en la fase y cuando lo deja "(Trans. Cambridge Philos. Soc. 12, 1879, pp. 547–570).

Hay otro hermoso pasaje de Maxwell sobre "probabilidad" (de una carta a Campbell, 1850, reimpresa en The Life of James Clerk Maxwell , p. 143):

la ciencia actual de la lógica está familiarizada actualmente solo con cosas ciertas, imposibles o totalmente dudosas, ninguna de las cuales (afortunadamente) tenemos que razonar. Por lo tanto, la verdadera lógica para este mundo es el cálculo de probabilidades, que tiene en cuenta la magnitud de la probabilidad (que es, o que debería estar en la mente de un hombre razonable).

Entonces podemos decir:

- En estadística estamos "concentrando nuestra atención en un pequeño número de grupos artificiales" o cantidades; estamos haciendo una especie de catalogación o censo.

- Probablemente estamos calculando nuestra incertidumbre sobre algunos eventos o cantidades.

Los dos son distintos, y podemos estar haciendo el uno sin el otro.

Por ejemplo, si hacemos un censo completo de toda la población de una nación y contamos el número exacto de personas que pertenecen a grupos particulares como la edad, el sexo, etc., estamos haciendo estadísticas. No hay incertidumbre - probabilidad - involucrada, porque los números que encontramos son exactos y conocidos.

Por otro lado, imagina a alguien pasando frente a nosotros en la calle, y nos preguntamos acerca de su edad. En este caso, no estamos seguros y usamos la probabilidad, pero no hay estadísticas involucradas, ya que no estamos haciendo algún tipo de censo o catálogo.

Pero los dos también pueden ocurrir juntos. Si no podemos hacer un censo completo de una población, tenemos que adivinar cuántas personas están en grupos específicos de edad y género. Por lo tanto, estamos usando probabilidad mientras hacemos estadísticas. Viceversa, podemos considerar datos estadísticos exactos sobre las edades de las personas y, a partir de dichos datos, tratar de adivinar mejor la persona que pasa frente a nosotros. Por lo tanto, estamos usando estadísticas al decidir una probabilidad.

pglpm
fuente
Gracias por tu contribución. Aunque es interesante, no coincide con lo que los estadísticos creen que son las estadísticas ni con lo que realmente hacen, como se muestra en stats.stackexchange.com/questions/140547/… .
Whuber
Es un punto discutible. Conozco estadísticos profesionales que no están de acuerdo con la definición de ASA (que es terriblemente vaga) y están de acuerdo con Maxwell.
pglpm