Muy a menudo cuando investigo nuevos métodos y conceptos estadísticos, me encuentro con la diferencia al cuadrado (o el error al cuadrado medio, o una gran cantidad de otros epítetos). Solo como ejemplo, la r de Pearson se decide en función de la diferencia cuadrática media de la línea de regresión en la que se encuentran los puntos. Para los ANOVA, estás viendo la suma de cuadrados, y así sucesivamente.
Ahora, entiendo que al cuadrar todo, te aseguras de que los datos con valores atípicos realmente sean penalizados. Sin embargo, ¿por qué el exponente se usa exactamente 2? ¿Por qué no 2.1, o e, o pi, o lo que sea? ¿Hay alguna razón especial por la que se usa 2 o es solo una convención? Sospecho que la explicación podría tener algo que ver con la curva de la campana, pero estoy bastante seguro.
fuente
Respuestas:
Un enfoque teórico de la decisión a las estadísticas proporciona una explicación profunda. Dice que las diferencias cuadráticas son una representación de una amplia gama de funciones de pérdida que (siempre que puedan adoptarse de manera justificada) conducen a una simplificación considerable en los posibles procedimientos estadísticos que uno debe considerar.
Desafortunadamente, explicar lo que esto significa e indicar por qué es cierto requiere mucha configuración. La notación puede volverse rápidamente incomprensible. Lo que pretendo hacer aquí, entonces, es esbozar las ideas principales, con poca elaboración. Para cuentas más completas ver las referencias.
Un modelo estándar y rico de datos postula que son una realización de una variable aleatoria (real, con valor vectorial) cuya distribución se sabe que solo es un elemento de algún conjunto de distribuciones, los estados de la naturaleza . Un procedimiento estadístico es una función de toma valores en algún conjunto de decisiones , el espacio de decisión.X F Ω t x Dx X F Ω t X D
Por ejemplo, en un problema de predicción o clasificación consistiría en una unión de un "conjunto de entrenamiento" y un "conjunto de datos de prueba" y mapeará en un conjunto de valores predichos para el conjunto de prueba. El conjunto de todos los posibles valores de predicción sería . t x Dx t x D
Una discusión teórica completa de los procedimientos tiene que acomodar los procedimientos aleatorios . Un procedimiento aleatorio elige entre dos o más decisiones posibles de acuerdo con alguna distribución de probabilidad (que depende de los datos ). Generaliza la idea intuitiva de que cuando los datos no parecen distinguir entre dos alternativas, posteriormente "lanza una moneda" para decidir una alternativa definitiva. A muchas personas no les gustan los procedimientos aleatorios y se oponen a tomar decisiones de una manera tan impredecible.x
La característica distintiva de la teoría de la decisión es el uso de una función de pérdida .W Para cualquier estado de la naturaleza y decisión , la pérdidad ∈ DF∈Ω d∈D
es un valor numérico que representa cuán "malo" sería tomar una decisión cuando el verdadero estado de la naturaleza es : las pérdidas pequeñas son buenas, las pérdidas grandes son malas. En una situación de prueba de hipótesis, por ejemplo, tiene los dos elementos "aceptar" y "rechazar" (la hipótesis nula). La función de pérdida enfatiza la toma de la decisión correcta: se establece en cero cuando la decisión es correcta y de lo contrario es algo constante . (Esto se denomina " función de pérdida :" todas las malas decisiones son igualmente malas y todas las buenas decisiones son igualmente buenas). Específicamente, cuando está en la hipótesis nula yF D w 0 - 1 W ( F , aceptar ) = 0 F W ( F , rechazar ) = 0 Fd F D w 0−1 W(F, accept)=0 F W(F, reject)=0 F está en la hipótesis alternativa.
Cuando se usa el procedimiento , la pérdida para los datos cuando el verdadero estado de la naturaleza es se puede escribir . Esto hace que la pérdida de una variable aleatoria cuya distribución está determinada por (lo desconocido) .x F W ( F , t ( x ) ) W ( F , t ( X ) ) Ft x F W(F,t(x)) W(F,t(X)) F
La pérdida esperada de un procedimiento se denomina riesgo , . La expectativa utiliza el verdadero estado de la naturaleza , que por lo tanto aparecerá explícitamente como un subíndice del operador de expectativa. Veremos el riesgo en función de y enfatizaremos eso con la notación:r t F Ft rt F F
Mejores procedimientos tienen menor riesgo. Por lo tanto, comparar las funciones de riesgo es la base para seleccionar buenos procedimientos estadísticos. Dado que reescalar todas las funciones de riesgo por una constante común (positiva) no cambiaría ninguna comparación, la escala de no hace ninguna diferencia: somos libres de multiplicarla por cualquier valor positivo que deseemos. En particular, al multiplicar por siempre podemos tomar para una función de pérdida (justificando su nombre).W 1 / w w = 1 0 - 1W W 1/w w=1 0−1
Para continuar con el ejemplo de prueba de hipótesis, que ilustra una función de pérdida , estas definiciones implican el riesgo de cualquier en la hipótesis nula es la posibilidad de que la decisión sea "rechazada", mientras que el riesgo de cualquier en la alternativa es posibilidad de que la decisión sea "aceptar". El valor máximo (sobre todo en la hipótesis nula) es el tamaño de la prueba , mientras que la parte de la función de riesgo definida en la hipótesis alternativa es el complemento de la potencia de prueba ( ). En esto vemos cómo la teoría de prueba de hipótesis clásica (frecuente) equivale a una forma particular de comparar las funciones de riesgo para un tipo especial de pérdida.F F F potencia t ( F ) = 1 - r t ( F )0−1 F F F powert(F)=1−rt(F)
Por cierto, todo lo presentado hasta ahora es perfectamente compatible con todas las estadísticas principales, incluido el paradigma bayesiano. Además, el análisis bayesiano introduce una distribución de probabilidad "previa" sobre y la utiliza para simplificar la comparación de las funciones de riesgo: la función potencialmente complicada puede ser reemplazada por su valor esperado con respecto a la distribución previa. Por lo tanto, todos los procedimientos se caracterizan por un solo número ; Un procedimiento de Bayes (que generalmente es único) minimiza . La función de pérdida todavía juega un papel esencial en el cálculo de .r t t r t r t r tΩ rt t rt rt rt
Existe cierta controversia (inevitable) en torno al uso de las funciones de pérdida. ¿Cómo se elige ? Es esencialmente único para la prueba de hipótesis, pero en la mayoría de los otros entornos estadísticos son posibles muchas opciones. Reflejan los valores del tomador de decisiones. Por ejemplo, si los datos son mediciones fisiológicas de un paciente médico y las decisiones son "tratar" o "no tratar", el médico debe considerar, y sopesar en la balanza, las consecuencias de cualquiera de las acciones. La forma de sopesar las consecuencias puede depender de los propios deseos del paciente, su edad, su calidad de vida y muchas otras cosas. La elección de una función de pérdida puede ser tensa y profundamente personal. ¡Normalmente no debería dejarse en manos del estadístico!W
Una cosa que nos gustaría saber, entonces, es ¿cómo cambiaría la elección del mejor procedimiento cuando se cambia la pérdida? Resulta que en muchas situaciones comunes y prácticas se puede tolerar una cierta cantidad de variación sin cambiar qué procedimiento es el mejor. Estas situaciones se caracterizan por las siguientes condiciones:
El espacio de decisión es un conjunto convexo (a menudo un intervalo de números). Esto significa que cualquier valor que se encuentre entre dos decisiones también es una decisión válida.
La pérdida es cero cuando se toma la mejor decisión posible y, de lo contrario, aumenta (para reflejar las discrepancias entre la decisión que se toma y la mejor que se podría tomar para el verdadero estado de la naturaleza, pero desconocido).
La pérdida es una función diferenciable de la decisión (al menos localmente cerca de la mejor decisión). Esto implica que es continuo, no salta como lo hace una pérdida de , pero también implica que cambia relativamente poco cuando la decisión es cercana a la mejor.0−1
Cuando estas condiciones se mantienen, algunas complicaciones involucradas en la comparación de las funciones de riesgo desaparecen. La diferenciabilidad y convexidad de nos permite aplicar la desigualdad de Jensen para demostrar queW
(1) No tenemos que considerar procedimientos aleatorios [Lehmann, corolario 6.2].
(2) Si se considera que un procedimiento tiene el mejor riesgo para uno de tales , se puede mejorar en un procedimiento que depende solo de una estadística suficiente y tiene al menos una función de riesgo tan buena para todos esos [Kiefer, pág. 151].W t ∗ Wt W t∗ W
Como ejemplo, supongamos que es el conjunto de distribuciones normales con media (y varianza unitaria). Esto identifica a con el conjunto de todos los números reales, por lo que (abusando de la notación) también usaré " " para identificar la distribución en con media . Sea una muestra iid de tamaño de una de estas distribuciones. Supongamos que el objetivo es estimar . Esto identifica el espacio de decisión con todos los valores posibles de (cualquier número real). Dejando que designe una decisión arbitraria, la pérdida es una funciónμ Ohmio μ Ohmio μ X n μ D μ μΩ μ Ω μ Ω μ X n μ D μ μ^
con si y solo si . Los supuestos anteriores implican (a través del Teorema de Taylor) queW(μ,μ^)=0 μ=μ^
para algún número positivo constante . (La pequeña notación " " significa cualquier función donde el valor límite de es como ). Como se señaló anteriormente, somos libres de reescalar hacer . Para esta familia , la media de , escrita , es una estadística suficiente. El resultado anterior (citado por Kiefer) dice que cualquier estimador de , que podría ser alguna función arbitraria de las variables que es bueno para uno de esos o ( y ) p f f ( y ) / y p 0 y →w2 o(y)p f f(y)/yp 0 y→0 W w2=1 Ω X X¯ μ n (x1,…,xn) W , Puede ser convertido en un estimador dependiendo sólo de que es al menos tan bueno para todos tales .x¯ W
Lo que se ha logrado en este ejemplo es típico: el conjunto enormemente complicado de posibles procedimientos, que originalmente consistía en funciones posiblemente aleatorias de variables, se ha reducido a un conjunto mucho más simple de procedimientos que consisten en funciones no aleatorias de una sola variable ( o al menos un número menor de variables en casos donde suficientes estadísticas son multivariadas). Y esto se puede hacer sin preocuparse por cuál es exactamente la función de pérdida del tomador de decisiones, siempre que sea convexa y diferenciable.n
¿Cuál es la función de pérdida más simple? El que ignora el término restante, por supuesto, haciéndolo puramente una función cuadrática. Otras funciones de pérdida en esta misma clase incluyen potencias deque son mayores que (como y mencionados en la pregunta), y muchos más.z=|μ^−μ| 2 2.1,e, π exp(z)−1−z
La curva azul (superior) traza mientras que la curva roja (inferior) traza . Debido a que la curva azul también tiene un mínimo en , es diferenciable y convexa, muchas de las buenas propiedades de los procedimientos estadísticos que disfruta la pérdida cuadrática (la curva roja) también se aplicarán a la función de pérdida azulz 2 02(exp(|z|)−1−|z|) z2 0 (aunque globalmente la función exponencial se comporta de manera diferente a la función cuadrática).
Estos resultados (aunque obviamente limitados por las condiciones impuestas) ayudan a explicar por qué la pérdida cuadrática es omnipresente en la teoría y la práctica estadística: hasta cierto punto, es un proxy analíticamente conveniente para cualquier función de pérdida diferenciable convexa.
La pérdida cuadrática de ninguna manera es la única o incluso la mejor pérdida a considerar. De hecho, Lehman escribe que
[Lehman, sección 1.6; con algunos cambios de notación.]
Tener en cuenta las pérdidas alternativas abre un amplio conjunto de posibilidades: la regresión cuantil, los estimadores M, las estadísticas robustas y mucho más se pueden enmarcar de esta forma teórica de decisión y justificarse utilizando funciones de pérdida alternativas. Para un ejemplo simple, vea Funciones de pérdida de percentiles .
Referencias
Jack Carl Kiefer, Introducción a la inferencia estadística. Springer-Verlag 1987.
EL Lehmann, Teoría de la estimación puntual . Wiley 1983.
fuente
Las propiedades geométricas para esta métrica de distancia son tales que será fácil de usar.
Y, por supuesto, matemática más fácil si tiene una solución analítica para la mayoría de los problemas.
fuente