¿Es la teoría de la probabilidad el estudio de funciones no negativas que se integran / suman a una?

26

Esta es probablemente una pregunta tonta, pero ¿es la teoría de la probabilidad el estudio de funciones que integran / suman una?

EDITAR. Olvidé la no negatividad. Entonces, ¿es la teoría de la probabilidad el estudio de funciones no negativas que se integran / suman a una?

dontloo
fuente
Sí, las probabilidades siempre suman uno. Las probabilidades, por otro lado, no tienen esta restricción.
Mike Hunter
2
La única respuesta razonable a la pregunta como se indicó es no, sobre todo porque hay muchas funciones que se integran a 1, pero para las cuales no puede representar probabilidades para algunas y . Por ejemplo, considere una función que sea 1.5 entre 0 y 1 y -0.5 entre 1 y 2, y 0 en cualquier otro lugar. (pero también podría decirse que "no" por otras razones)fabf(u)duab
Glen_b -Reinstate Monica
2
Relacionado: stats.stackexchange.com/questions/214485/…
Ilmari Karonen
1
Hay documentos serios sobre probabilidad negativa, por ejemplo, Maurice S. Bartlett. doi.org/10.1017/S0305004100022398
Nick Cox
2
@dontloo lo que buscaba ahora está bastante bien cubierto por la cita de Tao en la respuesta de Chaconne.
Glen_b -Reinstalar Monica

Respuestas:

31

A un nivel puramente formal, uno podría llamar a la teoría de probabilidad el estudio de espacios de medida con la medida total uno, pero eso sería como llamar a la teoría de números el estudio de cadenas de dígitos que terminan

- de los Temas de Terry Tao en teoría de matrices aleatorias .

Creo que esto es lo realmente fundamental. Si tenemos un espacio de probabilidad y una variable aleatoria con medida de , entonces la razón una densidad integra a uno porque . Y eso es más fundamental que pdfs vs pmfs.(Ω,F,P)X:ΩRPX:=PX1f=dPXdμP(Ω)=1

Aquí está la prueba:

Rfdμ=RdPX=PX(R)=P({ωΩ:X(ω)R})=P(Ω)=1.

Esto es casi una reformulación de la respuesta de AdamO (+1) porque todos los CDF son càdlàg, y hay una relación uno a uno entre el conjunto de CDF en y el conjunto de todas las medidas de probabilidad en , pero como el CDF de un RV se define en términos de su distribución, veo los espacios de probabilidad como el lugar para "comenzar" con este tipo de esfuerzo.R(R,B)


Estoy actualizando para elaborar la correspondencia entre los CDF y las medidas de probabilidad y cómo ambas son respuestas razonables para esta pregunta.

Comenzamos comenzando con dos medidas de probabilidad y analizando los CDF correspondientes. Concluimos comenzando con un CDF y observando la medida inducida por él.

Deje que y sean medidas de probabilidad en y dejar que y sean sus respectivos CDF (es decir y lo mismo para ) y representarían medidas de variables aleatorias (es decir, distribuciones), pero en realidad no importa de dónde vinieron para esto.QR(R,B)FQFRFQ(a)=Q((,a])RQR

La idea clave es esta: si y están de acuerdo en una colección de conjuntos lo suficientemente rica, entonces están de acuerdo con el álgebra generada por esos conjuntos. Intuitivamente, si tenemos una buena colección de eventos que, a través de una cantidad contable de complementos, intersecciones y uniones forman todo , entonces estar de acuerdo en todos esos conjuntos no deja margen de maniobra para estar en desacuerdo con cualquier Borel conjunto.QRσB

Formalicemos eso. Deje y deje , es decir, es el subconjunto de en el que y están de acuerdo (y están definidos). Tenga en cuenta que les estamos permitiendo acordar conjuntos no Borel ya que tal como está 't necesariamente un subconjunto de . Nuestro objetivo es mostrar que .S={(,a]:aR}L={AR:Q(A)=R(A)}P ( R ) Q R L B BLLP(R)QRLBBL

Resulta que (el álgebra generado por ) es de hecho , por lo que esperamos que sea ​​una colección suficientemente grande de eventos que si todas partes en entonces están obligados a ser igual en todos .σ S B S Q = R S Bσ(S)σSBSQ=RSB

Tenga en cuenta que está cerrado bajo intersecciones finitas, y que está cerrado bajo complementos e intersecciones contables disjuntas (esto se deduce de -adititivity). Esto significa que es un -system y es un -system . Por el - teorema que, por tanto, tenemos que . Los elementos deL σ S π L λ π λ σ ( S ) = BL S S Q R S B BSLσSπLλπλσ(S)=BLSno son tan complejas como un conjunto de Borel arbitrario, sino porque cualquier conjunto de Borel puede formarse a partir de un número contable de complementos, uniones e intersecciones de elementos de , si no hay un único desacuerdo entre y en elementos de , entonces este será seguido a través de a que no hay desacuerdos en cualquier .SQRSBB

Acabamos de demostrar que si entonces (en ), lo que significa que el mapa de a es una inyección. Q = R B Q F Q P : = { P : P  es una medida de probabilidad en  ( R , B ) } F : = { F : RR : F  es un CDF }FQ=FRQ=RBQFQP:={P:P is a probability measure on (R,B)}F:={F:RR:F is a CDF}

Ahora, si queremos pensar en ir en la otra dirección, queremos comenzar con un FCD y mostrar que hay una medida de probabilidad única tal que . esto establecerá que nuestro mapeo es de hecho una biyección. Por esta dirección, definimos sin ninguna referencia a la probabilidad o medidas.Q F ( a ) = Q ( ( - , a ] ) Q F Q FFQF(a)=Q((,a])QFQF

Primero definimos una función de medida Stieltjes como una función tal queG:RR

  1. G no es decreciente
  2. G es derecho-continuo

(y observe cómo ser càdlàg se deduce de esta definición, pero debido a la restricción adicional no decreciente, "la mayoría" de las funciones càdlàg no son funciones de medida de Stieltjes).

Se puede demostrar que cada función Stieltjes induce una medida única on definida por (ver, por ejemplo, la probabilidad de Durrett y los procesos aleatorios para más detalles sobre esto.) Por ejemplo, la medida de Lebesgue es inducida por .μ ( R , B ) μ ( ( a , b ] ) = G ( b ) - G ( a ) G ( x ) = xGμ(R,B)

μ((a,b])=G(b)G(a)
G(x)=x

Ahora observando que un CDF es una función Stieltjes con las propiedades adicionales que y , podemos aplicar ese resultado para mostrar que para cada CDF obtenemos una medida única en definida por FlimxF(x):=F()=0limxF(x):=F()=1FQ(R,B)

Q((a,b])=F(b)F(a).

Observe cómo y entonces es una medida de probabilidad y es exactamente la que habríamos utilizado para definir si hubiéramos ido en la otra dirección.Q((,a])=F(a)F()=F(a)Q((,])=F()F()=1QF

Todos juntos hemos visto ahora que la asignación de es 1-1 y en lo que realmente tienen una biyección entre y . Volviendo a la pregunta real, esto muestra que podríamos sostener de manera equivalente CDF o medidas de probabilidad como nuestro objeto del cual declaramos que la probabilidad es el estudio (al tiempo que reconocemos que este es un esfuerzo algo gracioso). Yo personalmente prefiero los espacios de probabilidad porque siento que la teoría fluye más naturalmente en esa dirección, pero los CDF no están "equivocados".QFQPF

jld
fuente
3
+1 para una perspectiva más amplia sobre el asunto; Usted notó correctamente que el espacio funcional càdlàg de Skorokhod es solo una noción presente de lo que implica la teoría de la probabilidad, radicalmente diferente de los descubrimientos de Borel y Skorokhod solo se remonta ~ 40 años más o menos. ¿Quién sabe lo que el próximo siglo puede descubrir?
AdamO
1
@AdamO absolutamente, y están los más extraños, como la probabilidad no arquímedeana, donde incluso si nunca se convierten en el punto de vista dominante (y que yo sepa, nadie está tratando seriamente de hacerlo), encuentro que me ayudan a comprender mejor la formulación estándar ( por ejemplo, qué tan grave es la aditividad sigma)
jld
Leí el título de la pregunta y pensé en esa cita de Terence Tao; debe haberlo leído hace años ( 2010 ) pero es realmente memorable. Como él continúa diciendo: En un nivel práctico, lo contrario es cierto ...
ShreevatsaR
Vea mi comentario sobre la pregunta: ¿Cómo se relacionan las teorías alternativas de probabilidad, como Bayesian (y Dempster-Shafer y el Modelo de creencias transferibles y la teoría de Dezert-Smarandache), las probabilidades imprecisas, la teoría de la plausibilidad, etc., con esta pregunta y discusión?
E. Douglas Jensen
@ E.DouglasJensen No estoy seguro, estoy abordando esto en términos de los axiomas estándar de Kolmogorov, así que en ese contexto creo que mi respuesta es "correcta", pero si estamos cambiando los axiomas, supongo que todas las apuestas están canceladas . Además, no estoy siendo filosófico en absoluto sobre esto, así que si estamos tratando de conectar esto con el mundo real de alguna manera, por ejemplo, con preguntas como "¿cuál es la probabilidad de que salga el sol", entonces estoy seguro de que se pone más complicado. Sin embargo, parece una apuesta bastante segura de que la probabilidad de que "nada" sucede es el valor máximo (probablemente ) y que no hay incertidumbre en la que1
JLD
12

No; la distribución de Cantor es solo un contraejemplo. Es una variable aleatoria, pero no tiene densidad. Tiene una función de distribución, sin embargo. Diría, por lo tanto, que la teoría de la probabilidad es el estudio de las funciones de càdlàg , incluido el Cantor DF, que tienen límites izquierdos de 0 y límites derechos de 1.

AdamO
fuente
Bien, nunca escuché sobre las funciones cadlag. Sin embargo, estos todavía asumen un espacio real y métrico. No toda la teoría de la probabilidad se realiza en tales espacios.
HRSE
1
Puede, por ejemplo, volver a Terrence Fine, Teorías de la probabilidad. También tenga en cuenta que las funciones cadlag (al menos según el artículo de wikipedia) tienen los números reales como dominio. Los "Fundamentos de la estadística" de LJ Savage dan cuenta de la teoría de probabilidad (subjetiva) en espacios que no son necesariamente reales.
HRSE
1
@jwg Algunos otros comentarios en esta publicación abordan la probabilidad negativa, que parece ser de alguna utilidad en la física cuántica, aunque mi mente simple no puede comprender tal cosa.
AdamO
1
@HRSE gracias por las referencias. No pude encontrar ninguno de ellos en línea, pero leí algunos otros documentos de esos autores, aunque no encontré ningún ejemplo de esto. Si definimos una variable aleatoria como entonces el CDF se define en términos de la medida de (no la medida en ) y puesto que se valora verdadero es necesariamente una medida de lo que significa que puede alimentar establece como por lo tiene como su dominio. ¿Me estoy perdiendo algo?XX:ΩRnPX:=PX1P(Ω,F)XPX(Rn,Bn)(,a]FRn
jld
1
Creo que bien ordenado significa que cada subconjunto tiene un elemento mínimo, mientras que los medios totalmente ordenados para todos e , exactamente uno de , , o mantiene, entonces es ambos, es solo totalmente ordenado, y no es ninguno de los dos. Necesitamos absolutamente multiplicar y agregar probabilidades para que al menos el codominio de deba ser un campo, pero no creo que tenga que estar totalmente ordenado o completo. Las medidas valoradas complejas son un ejemplo de la primera y las medidas valoradas hiperrealistas son un ejemplo de la segunda. Sin embargo, todos estos son espacios métricos (o pueden ser)xyx<yx>yx=yNRCP
jld
6

Estoy seguro de que obtendrá buenas respuestas, pero aquí le daremos una perspectiva ligeramente diferente.

Es posible que haya escuchado a matemáticos decir que la física es prácticamente matemática, o simplemente una aplicación de las matemáticas a las leyes más básicas de la naturaleza. Algunos matemáticos (¿muchos?) Realmente creen que este es el caso. Lo he escuchado una y otra vez en la universidad. A este respecto, hace una pregunta similar, aunque no tan amplia como esta.

El físico generalmente no se molesta incluso en responder a esta afirmación: es demasiado obvio para ellos que no es cierto. Sin embargo, si intentas responder, queda claro que la respuesta no es tan trivial, si quieres que sea convincente.

Mi respuesta es que la física no es solo un conjunto de modelos, ecuaciones y teorías. Es un campo con su propio conjunto de enfoques, herramientas, heurísticas y formas de pensar. Esa es una de las razones por las cuales, aunque Poincare desarrolló la teoría de la relatividad antes de Einstein, no se dio cuenta de todas las implicaciones y no buscó que todos se unieran. Einstein sí, porque era físico y entendió lo que significaba de inmediato. No soy fanático del tipo, pero su trabajo sobre el movimiento browniano es otro ejemplo de cómo un físico construye un modelo matemático. Ese documento es asombroso y está lleno de intuición y rastros de pensamiento que son inequívocamente físicos.

Entonces, mi respuesta para usted es que incluso si fuera el caso de que la probabilidad se ocupara del tipo de funciones que describió, aún no habría sido el estudio de esas funciones. Tampoco es una teoría de la medida aplicada a alguna subclase de medidas. La teoría de la probabilidad es el campo distintivo que estudia las probabilidades, está vinculada a un mundo natural a través de la desintegración radiactiva y la mecánica cuántica y los gases, etc. propiedades también, pero mientras lo hacemos, vigilaremos el premio principal: las probabilidades.

Aksakal
fuente
1
1 para llevar la realidad a una pelea de matemáticas y realmente responder a la pregunta con la única respuesta razonable, es decir, que cualquier reduccionismo pierde el punto
JLD
@Chaconne Aprendí una palabra útil hoy reduccionismo , la incorporaré en mi vocabulario :)
Aksakal
+1, esto es lo que estaba tratando de decir con mi respuesta, pero lo dije con menos eficacia de lo que creo.
Nathaniel
4

Bueno, parcialmente cierto, carece de una segunda condición. Las probabilidades negativas no tienen sentido. Por lo tanto, estas funciones deben cumplir dos condiciones:

  • Distribuciones continuas:

    Df(x)dx=1andf(x)>0xD
  • Distribuciones discretas:

    xDP(x)=1and0<P(x)1xD

Donde es el dominio donde se define la distribución de probabilidad.D

Carlos Campos
fuente
Muchas gracias Carlos por la respuesta, en realidad quiero saber qué pasa si se agregó la condición no negativa.
dontloo
1
Yo diría que reducir el campo de probabilidad para estudiar las funciones de densidad / masa de probabilidad (cumplir las propiedades superiores) es demasiado simple. Además, como ha dicho @AdamO, hay algunos casos de variables aleatorias que no tienen función de densidad de probabilidad, a pesar de que tienen un cdf bien definido.
Carlos Campos
@CarlosCampos: con respecto a las probabilidades negativas: en realidad tienen sentido en algunos contextos, por ejemplo, medias monedas. Consulte en.wikipedia.org/wiki/Negative_probability para obtener un poco más de información.
Inkane
3

Yo diría que no, eso no es fundamentalmente la teoría de la probabilidad, pero lo diría por diferentes razones que las otras respuestas.

Básicamente, diría que la teoría de la probabilidad es el estudio de dos cosas:

  1. Procesos estocásticos, y

  2. Inferencia bayesiana.

Los procesos estocásticos incluyen cosas como lanzar dados, sacar bolas de urnas, etc., así como los modelos más sofisticados que se encuentran en física y matemáticas. La inferencia bayesiana es razonar bajo incertidumbre, usando probabilidades para representar el valor de cantidades desconocidas.

Estas dos cosas están más estrechamente relacionadas de lo que parecen a primera vista. Una razón por la que podemos estudiarlos bajo el mismo paraguas es que los aspectos importantes de ambos pueden representarse como funciones no negativas que se suman / integran en uno. Pero la probabilidad no es solo el estudio de esas funciones: su interpretación en términos de procesos aleatorios e inferencia también es una parte importante de la misma.

Por ejemplo, la teoría de la probabilidad incluye conceptos como las probabilidades condicionales y las variables aleatorias, y cantidades como la entropía, la información mutua y la expectativa y la varianza de las variables aleatorias. Si bien uno podría definir estas cosas puramente en términos de funciones no negativas normalizadas, la motivación para esto parecería bastante extraña sin la interpretación en términos de procesos aleatorios e inferencia.

Además, a veces uno encuentra conceptos en la teoría de la probabilidad, particularmente en el lado de la inferencia, que no pueden expresarse en términos de una función no negativa que normaliza a uno. Los llamados "antecedentes impropios" vienen a mi mente aquí, y AdamO dio la distribución de Cantor como otro ejemplo.

Ciertamente, hay algunas áreas de la teoría de la probabilidad en las que el interés principal está en las propiedades matemáticas de las funciones no negativas normalizadas, para las cuales los dos dominios de aplicación que mencioné no son importantes. Cuando este es el caso, a menudo lo llamamos teoría de la medida en lugar de teoría de la probabilidad. Pero la teoría de la probabilidad también es, de hecho, diría principalmente, un campo aplicado, y las aplicaciones de las distribuciones de probabilidad son en sí mismas un componente no trivial del campo.

Nathaniel
fuente
2
Usted ha hecho el dominio de temas en la teoría de la probabilidad bastante estrechas ...
Tim
@Tim no a propósito: lo dividí en dos áreas, pero pretendía que cada una de ellas se interpretara de manera muy amplia. ¿Me puede dar algunos otros temas que no encajan en ninguno de los encabezados?
Nathaniel