¿Ejemplos de una estadística que no es independiente de la distribución de la muestra?

14

Esta es la definición de estadística en wikipedia

Más formalmente, la teoría estadística define una estadística como una función de una muestra donde la función en sí es independiente de la distribución de la muestra; es decir, la función se puede establecer antes de la realización de los datos. El término estadística se usa tanto para la función como para el valor de la función en una muestra dada.

Creo que entiendo la mayor parte de esta definición, sin embargo, la parte - donde la función es independiente de la distribución de la muestra que no he podido resolver.

Mi comprensión de la estadística hasta ahora

Una muestra es un conjunto de realizaciones de un cierto número de variables aleatorias independientes, distribuidas idénticamente (iid) con distribución F (10 realizaciones de un lanzamiento de un dado justo de 20 lados, 100 realizaciones de 5 lanzamientos de un dado justo de 6 lados, atrae al azar a 100 personas de una población).

Una función, cuyo dominio es ese conjunto, y cuyo rango son los números reales (o tal vez puede producir otras cosas, como un vector u otro objeto matemático ...) se consideraría una estadística .

Cuando pienso en ejemplos, la media, la mediana y la varianza tienen sentido en este contexto. Son una función en un conjunto de realizaciones (mediciones de presión arterial de una muestra aleatoria). También puedo ver cómo un modelo de regresión lineal podría considerarse una estadística yi=α+βxi : ¿no se trata solo de una función en un conjunto de realizaciones?

Donde estoy confundido

Suponiendo que mi comprensión desde arriba es correcta, no he podido entender dónde una función podría no ser independiente de la distribución de la muestra. He estado tratando de pensar en un ejemplo para darle sentido, pero no tuve suerte. Cualquier idea sería muy apreciada!

Jake Kirsch
fuente

Respuestas:

44

Esa definición es una forma un tanto incómoda de expresarlo. Una "estadística" es cualquier función de los valores observables. Todo lo que significa la definición es que una estadística es una función solo de los valores observables, no una función de la distribución o de ninguno de sus parámetros. Por ejemplo, si X1,X2,...,XnN(μ,1) a continuación, una estadística sería cualquier función T(X1,...,Xn) mientras que una función H(X1,....,Xn,μ) no sería una estadística, ya que depende deμ . Aquí hay algunos ejemplos adicionales:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Cada estadística es una función solo de los valores observables, y no de su distribución o sus parámetros. Por lo tanto, no hay ejemplos de una estadística que sea función de la distribución o de sus parámetros (cualquiera de esas funciones no sería una estadística). Sin embargo, es importante tener en cuenta que la distribución de una estadística (a diferencia de la estadística en sí misma) generalmente dependerá de la distribución subyacente de los valores. (Esto es cierto para todas las estadísticas que no sean estadísticas auxiliares ).


¿Qué pasa con una función donde se conocen los parámetros? En los comentarios a continuación, Alecos hace una excelente pregunta de seguimiento. ¿Qué pasa con una función que utiliza un valor hipotético fijo del parámetro? Por ejemplo, ¿qué pasa con la estadística n(x¯μ)dondeμ=μ0se toma para ser igual a un valor conocido hipotéticaμ0R. Aquí la función es de hecho una estadística, siempre que se defina en el dominio restringido apropiadamente. Así la funciónH0:RnRconH0(x1,...,xn)=n(x¯μ0)sería una estadística, pero la funciónH:Rn+1RconH(x1,...,xn,μ)=n(x¯μ)seríanoser una estadística.

Reinstalar a Mónica
fuente
1
Respuesta muy útil, considerando el parámetro estadístico subyacente como parte de la no estadística fue particularmente útil.
Jake Kirsch
44
1010(X1+X2++X1000)/1000(X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)
44
Esos ejemplos me parecen completamente válidos. ¿Estás diciendo que la idea de dividir datos en un conjunto de entrenamiento y un conjunto de validación no es válida?
James Martin
2
Estoy un poco confundido por eso también. Permítanme intentar describir el punto @CarlWitthoft. Todavía sería una estadística en términos de definición matemática, pero podría ver un caso en el que un consultor toma una 'estadística' de observaciones, pero arbitrariamente decide eliminar algunos resultados (¿los consultores hacen esto todo el tiempo, verdad?). Esto sería "válido" en el sentido de que todavía es una función en las observaciones, sin embargo, la forma en que se puede presentar e interpretar la estadística probablemente no sea válida.
Jake Kirsch
2
@Carl Withhoft: con respecto al punto que está haciendo, es importante distinguir entre una estadística (que no necesita incluir todos los datos y puede no abarcar toda la información de la muestra) y una estadística suficiente (que abarcará todos la información con respecto a algún parámetro). La teoría estadística ya tiene conceptos bien desarrollados como suficiencia que capturan la idea de que una estadística incluye toda la información relevante en la muestra. No es necesario ni deseable tratar de incorporar ese requisito en la definición de "estadística".
Vuelva a instalar Mónica
4

Interpreto eso como diciendo que debes decidir antes de ver los datos qué estadística vas a calcular. Entonces, por ejemplo, si va a eliminar valores atípicos, debe decidir antes de ver los datos qué constituye un "valor atípico". Si decide después de ver los datos, su función depende de los datos.

Acumulacion
fuente
¡Esto también es útil! Entonces, tomar una decisión sobre qué observaciones incluir en la función después de saber qué observaciones están disponibles, que es más o menos lo que estaba describiendo en mi comentario sobre la respuesta anterior.
Jake Kirsch
2
(+1) Vale la pena señalar que esto es importante porque si define una regla a priori sobre lo que constituye un punto de datos que se descartará, es (relativamente) fácil derivar una distribución para estadística (es decir, media truncada, etc. .). Es realmente difícil derivar una distribución para una medida que implica soltar puntos de datos por razones que no están definidas de forma clara de antemano.
Cliff AB