He estado tratando de establecer la desigualdad
donde es la media muestral y la desviación estándar muestral, es decir .
Es fácil ver que y así pero esto no está muy cerca de lo que estaba buscando, ni es un límite útil. He experimentado con las desigualdades de Cauchy-Schwarz y el triángulo, pero no he ido a ninguna parte. Debe haber un paso sutil que me estoy perdiendo en alguna parte. Agradecería un poco de ayuda, gracias.
Después de simplificar el problema mediante procedimientos de rutina, se puede resolver convirtiéndolo en un programa de minimización dual que tenga una respuesta bien conocida con una prueba elemental. Quizás esta dualización es el "paso sutil" al que se hace referencia en la pregunta. La desigualdad también se puede establecer de una manera puramente mecánica maximizandoa través de multiplicadores de Lagrange.|Ti|
Primero, sin embargo, ofrezco una solución más elegante basada en la geometría de mínimos cuadrados. No requiere una simplificación preliminar y es casi inmediato, lo que proporciona una intuición directa del resultado. Como se sugiere en la pregunta, el problema se reduce a la desigualdad de Cauchy-Schwarz.
Solución geométrica
Considere como un vector -dimensional en el espacio euclidiano con el producto de puntos habitual. Sea ser el vector base y . Escriba y para las proyecciones ortogonales de y en el complemento ortogonal de . (En terminología estadística, son los residuos con respecto a los medios). Entonces, dado que ynx=(X1,X2,…,Xn) n y=(0,0,…,0,1,0,…,0) ith 1=(1,1,…,1) x^ y^ x y 1 Xi−X¯=x^⋅y S=||x^||/n−1−−−−−√ ,
es el componente de en la dirección . Por Cauchy-Schwarz, se maximiza exactamente cuando es paralelo a , para los cuales QED.y^ x^ x^ y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n
Por cierto, esta solución proporciona una caracterización exhaustiva de todos los casos dondeestá maximizado: son todos de la forma|Ti|
para todo real .μ,σ
Este análisis se generaliza fácilmente al caso donde se reemplaza por cualquier conjunto de regresores. Evidentemente, el máximo de es proporcional a la longitud del residuo de ,.{1} Ti y ||y^||
Simplificación
Debido a que es invariante bajo los cambios de ubicación y escala, podemos suponer sin pérdida de generalidad que suma a cero y sus cuadrados suman . Esto identificacon, ya que (el cuadrado medio) es . Maximizarlo equivale a maximizar . Tampoco se pierde generalidad tomando , ya que son intercambiables.X i n - 1Ti Xi n−1 |Ti| |Xi| S 1 |Ti|2=T2i=X2i i=1 Xi
Solución a través de una formulación dual
Un doble problema es arreglar el valor de y preguntar qué valores de restantes se necesitan para minimizar la suma de cuadrados dado que . Como se da , este es el problema de minimizar dado que . X j , j ≠ 1 ∑ n j = 1 X 2 jX21 Xj,j≠1 ∑nj=1X2j ∑nj=1Xj=0 X1 ∑nj=2X2j ∑nj=2Xj=−X1
La solución se encuentra fácilmente de muchas maneras. Uno de los más elementales es escribir
para el cual . Expandir la función objetivo y usar esta identidad de suma a cero para simplificarla produce∑nj=2εj=0
mostrar inmediatamente la solución única es para todo . Para esta soluciónεj=0 j
y
QED .
Solución a través de maquinaria
Regrese al programa simplificado con el que comenzamos:
sujeto a
El método de los multiplicadores de Lagrange (que es casi puramente mecánico y directo) equipara a cero una combinación lineal no trivial de los gradientes de estas tres funciones:
Componente por componente, estas ecuaciones sonn
Los últimos de ellos implican o . (Podemos descartar el último caso porque la primera ecuación implica , trivializando la combinación lineal). La restricción de suma a cero produce . La restricción de la suma de cuadrados proporciona las dos solucionesn−1 X2=X3=⋯=Xn=−λ2/(2λ3) λ2=λ3=0 λ1=0 X1=−(n−1)X2
Ambos ceden
fuente
La desigualdad como se dijo es verdad. Es bastante claro intuitivamente que obtenemos el caso más difícil para la desigualdad (es decir, maximizando el lado izquierdo para dado ) eligiendo un valor, digamos tan grande como sea posible mientras todos los demás son iguales. Veamos un ejemplo con dicha configuración:S2 x1
EDITAR
Ahora probaremos el reclamo, como se indicó anteriormente. Primero, para cualquier vector dado en este problema, podemos reemplazarlo con sin cambiar ninguno de los lados de la desigualdad anterior. Entonces, en lo siguiente supongamos que . También podemos volver a etiquetar asumir que es el más grande. Luego, al elegir primero y luego podemos verificar mediante álgebra simple que tenemos igualdad en la desigualdad reclamada. Entonces, es agudo.x=(x1,x2,…,xn) x−x¯ x¯=0 x1 x1>0 x2=x3=⋯=xn=−x1n−1
Luego, defina la región (convexa) por para una constante positiva dada . Tenga en cuenta que es la intersección de un hiperplano con una esfera centrada en el origen, por lo que es una esfera en el espacio . Nuestro problema ahora se puede formular como desde unaR = { x ∈ R : ˉ x = 0 , ∑ ( x i - ˉ x ) 2 / ( n - 1 ) ≤ S 2 } S 2 R ( n - 1 ) max x ∈ R max i | x i |R
fuente