Cómo demostrar que

9

He estado tratando de establecer la desigualdad

|Ti|=|XiX¯|Sn1n

donde es la media muestral y la desviación estándar muestral, es decir .X¯SS=i=1n(XiX¯)2n1

Es fácil ver que y así pero esto no está muy cerca de lo que estaba buscando, ni es un límite útil. He experimentado con las desigualdades de Cauchy-Schwarz y el triángulo, pero no he ido a ninguna parte. Debe haber un paso sutil que me estoy perdiendo en alguna parte. Agradecería un poco de ayuda, gracias.i=1nTi2=n1|Ti|<n1

JohnK
fuente

Respuestas:

10

Esta es la desigualdad de Samuelson y necesita el signo . Si toma la versión de Wikipedia y la modifica para la definición de encontrará que se convierte enS , | X i - ˉ X |n1S,

|XiX¯|Sn1n
Soakley
fuente
Se da como una desigualdad estricta en el libro, pero lo he solucionado, gracias.
JohnK
5

Después de simplificar el problema mediante procedimientos de rutina, se puede resolver convirtiéndolo en un programa de minimización dual que tenga una respuesta bien conocida con una prueba elemental. Quizás esta dualización es el "paso sutil" al que se hace referencia en la pregunta. La desigualdad también se puede establecer de una manera puramente mecánica maximizandoa través de multiplicadores de Lagrange.|Ti|

Primero, sin embargo, ofrezco una solución más elegante basada en la geometría de mínimos cuadrados. No requiere una simplificación preliminar y es casi inmediato, lo que proporciona una intuición directa del resultado. Como se sugiere en la pregunta, el problema se reduce a la desigualdad de Cauchy-Schwarz.


Solución geométrica

Considere como un vector -dimensional en el espacio euclidiano con el producto de puntos habitual. Sea ser el vector base y . Escriba y para las proyecciones ortogonales de y en el complemento ortogonal de . (En terminología estadística, son los residuos con respecto a los medios). Entonces, dado que ynx=(X1,X2,,Xn)ny=(0,0,,0,1,0,,0)ith1=(1,1,,1)x^y^xy1XiX¯=x^yS=||x^||/n1 ,

|Ti|=n1|x^y|||x^||=n1|x^y^|||x^||

es el componente de en la dirección . Por Cauchy-Schwarz, se maximiza exactamente cuando es paralelo a , para los cuales QED.y^x^x^y^=(1,1,,1,n1,1,1,,1)/n

Ti=±n1y^y^||y^||=±n1||y^||=±n1n,

Por cierto, esta solución proporciona una caracterización exhaustiva de todos los casos dondeestá maximizado: son todos de la forma|Ti|

x=σy^+μ1=σ(1,1,,1,n1,1,1,,1)+μ(1,1,,1)

para todo real .μ,σ

Este análisis se generaliza fácilmente al caso donde se reemplaza por cualquier conjunto de regresores. Evidentemente, el máximo de es proporcional a la longitud del residuo de ,.{1}Tiy||y^||


Simplificación

Debido a que es invariante bajo los cambios de ubicación y escala, podemos suponer sin pérdida de generalidad que suma a cero y sus cuadrados suman . Esto identificacon, ya que (el cuadrado medio) es . Maximizarlo equivale a maximizar . Tampoco se pierde generalidad tomando , ya que son intercambiables.X i n - 1TiXin1|Ti||Xi|S1|Ti|2=Ti2=Xi2i=1Xi


Solución a través de una formulación dual

Un doble problema es arreglar el valor de y preguntar qué valores de restantes se necesitan para minimizar la suma de cuadrados dado que . Como se da , este es el problema de minimizar dado que . X j , j 1 n j = 1 X 2 jX12Xj,j1j=1nXj2j=1nXj=0X1j=2nXj2j=2nXj=X1

La solución se encuentra fácilmente de muchas maneras. Uno de los más elementales es escribir

Xj=X1n1+εj, j=2,3,,n

para el cual . Expandir la función objetivo y usar esta identidad de suma a cero para simplificarla producej=2nεj=0

j=2nXj2=j=2n(X1n1+εj)2=(X1n1)22X1n1εj+εj2=Constant+εj2,

mostrar inmediatamente la solución única es para todo . Para esta soluciónεj=0j

(n1)S2=X12+(n1)(X1n1)2=(1+1n1)X12=nn1X12

y

|Ti|=|X1|S=|X1|n(n1)2X12=n1n,

QED .


Solución a través de maquinaria

Regrese al programa simplificado con el que comenzamos:

Maximize X12

sujeto a

i=1nXi=0 and i=1nXi2(n1)=0.

El método de los multiplicadores de Lagrange (que es casi puramente mecánico y directo) equipara a cero una combinación lineal no trivial de los gradientes de estas tres funciones:

(0,0,,0)=λ1D(X12)+λ2D(i=1nXi)+λ3D(i=1nXi2(n1)).

Componente por componente, estas ecuaciones sonn

0=2λ1X1+λ2+2λ3X10=λ2+2λ3X20=0=λ2+2λ3Xn.

Los últimos de ellos implican o . (Podemos descartar el último caso porque la primera ecuación implica , trivializando la combinación lineal). La restricción de suma a cero produce . La restricción de la suma de cuadrados proporciona las dos solucionesn1X2=X3==Xn=λ2/(2λ3)λ2=λ3=0λ1=0X1=(n1)X2

X1=±n1n; X2=X3==Xn=1n.

Ambos ceden

|Ti|=|X1||±n1n|=n1n.
whuber
fuente
Gracias por su anexo, la geometría es muy poderosa y de las tres soluciones es la más intuitiva para mí.
JohnK
0

La desigualdad como se dijo es verdad. Es bastante claro intuitivamente que obtenemos el caso más difícil para la desigualdad (es decir, maximizando el lado izquierdo para dado ) eligiendo un valor, digamos tan grande como sea posible mientras todos los demás son iguales. Veamos un ejemplo con dicha configuración:S2x1

n=4,x1=x2=x3=0,x4=4,x¯=1,S2=4,
ahora dependiendo de , mientras que el límite superior dado es igual a que es solo suficiente. Esa idea se puede completar a prueba.|xix¯|S={12 or 32i412=1.5

EDITAR

Ahora probaremos el reclamo, como se indicó anteriormente. Primero, para cualquier vector dado en este problema, podemos reemplazarlo con sin cambiar ninguno de los lados de la desigualdad anterior. Entonces, en lo siguiente supongamos que . También podemos volver a etiquetar asumir que es el más grande. Luego, al elegir primero y luego podemos verificar mediante álgebra simple que tenemos igualdad en la desigualdad reclamada. Entonces, es agudo.x=(x1,x2,,xn)xx¯x¯=0x1x1>0x2=x3==xn=x1n1

Luego, defina la región (convexa) por para una constante positiva dada . Tenga en cuenta que es la intersección de un hiperplano con una esfera centrada en el origen, por lo que es una esfera en el espacio . Nuestro problema ahora se puede formular como desde unaR = { x R : ˉ x = 0 , ( x i - ˉ x ) 2 / ( n - 1 ) S 2 } S 2 R ( n - 1 ) max x R max i | x i |R

R={xR:x¯=0,(xix¯)2/(n1)S2}
S2R(n1)
maxxRmaxi|xi|
xmaximizar ese será el caso más difícil para la desigualdad. Este es un problema de encontrar el máximo de una función convexa sobre un conjunto convexo, que en general son problemas difíciles (¡los mínimos son fáciles!). Pero, en este caso, la región convexa es una esfera centrada en el origen, y la función que queremos maximizar es el valor absoluto de las coordenadas. Es obvio que ese máximo se encuentra en la esfera límite de , y tomandomáximo, nuestro primer caso de prueba es forzado.R|x1|
kjetil b halvorsen
fuente
@JohnK puedes eliminar tus comentarios ahora, la publicación está corregida
kjetil b halvorsen
Aunque esta respuesta muestra que la desigualdad (suponiendo que sea verdadera, lo que es) es estrecha , no es evidente cómo ese cálculo único podría "completarse como una prueba". ¿Podría dar alguna indicación de cómo se haría eso?
whuber
Will, pero mañana, ahora tengo que preparar la clase de mañana.
kjetil b halvorsen
Gracias, agradezco su cuidadosa formulación del problema. Pero su "prueba" parece llegar a la afirmación de que "es obvio eso". Siempre puede aplicar multiplicadores de Lagrange para terminar el trabajo, pero sería bueno ver un enfoque que (a) en realidad sea una prueba y (b) proporcione información.
whuber
2
@whuber Si tiene tiempo, le agradecería que publique su solución de multiplicadores de Lagrange. Creo que la desigualdad en general no es tan famosa como debería ser.
JohnK