Funciones de influencia y OLS

15

Estoy tratando de entender cómo funcionan las funciones de influencia. ¿Podría alguien explicar en el contexto de una regresión OLS simple

yi=α+βxi+εi

donde quiero la función de influencia para .β

stevejb
fuente
2
Todavía no hay una pregunta específica aquí: ¿quieres ver cómo se calcula la función de influencia? ¿Quieres un ejemplo empírico específico? ¿Una explicación heurística de lo que significa?
whuber
1
Si busca el artículo de 1986 de Frank Critchley "las funciones de influencia en los componentes principales" (no recuerdo el nombre exacto del artículo). Aquí define la función de influencia para la regresión ordinaria (que puede o no probar que mi respuesta es incorrecta).
probabilistico

Respuestas:

15

Las funciones de influencia son básicamente una herramienta analítica que se puede utilizar para evaluar el efecto (o "influencia") de eliminar una observación sobre el valor de una estadística sin tener que volver a calcular esa estadística . También se pueden usar para crear estimaciones de varianza asintótica. Si la influencia es igual a entonces la varianza asintótica es I 2I .I2n

La forma en que entiendo las funciones de influencia es la siguiente. Tiene algún tipo de CDF teórico, denotado por . Para OLS simples, tienesFi(y)=Pr(Yi<yi)

DondeΦ(z)es el CDF normal estándar, yσ2es la varianza del error. Ahora puede mostrar que cualquier estadística será una función de este CDF, de ahí la notaciónS(F)(es decir, alguna función deF). Ahora supongamos que cambiamos la funciónFpor un "poco", aF(i)(z)=(1+ζ)F(z)-ζδ(i)(

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
Φ(z)σ2S(F)FF Donde δ i ( z ) = I ( y i < z ) , y ζ = 1F(i)(z)=(1+ζ)F(z)ζδ(i)(z)δi(z)=I(yi<z) . Por lo tanto,F(i)representa el CDF de los datos con el punto de datos "i-ésimo" eliminado. Podemos hacer una serie taylor deF(i)(z)sobreζ=0. Esto da:ζ=1n1F(i)F(i)(z)ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Por lo tanto, beta es una función de dos estadísticas: la varianza de X y la covarianza entre X e Y. Estas dos estadísticas tienen representaciones en términos de CDF como:

cov(X,Y)=(Xμx(F))(Yμy(F))dF
var(X)=(Xμx(F))2dF
μx=xdF

FF(i)=(1+ζ)Fζδ(i)

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
Var(X)(i)=(Xμx(i))2dF(i)=(Xμx+ζ(xiμx))2d[(1+ζ)Fζδ(i)]

ζ2

Var(X)(i)Var(X)ζ[(xiμx)2Var(X)]
Cov(X,Y)(i)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]

β(i)ζ

β(i)(ζ)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]Var(X)ζ[(xiμx)2Var(X)]

Ahora podemos usar la serie Taylor:

β(i)(ζ)β(i)(0)+ζ[β(i)(ζ)ζ]ζ=0

Simplificando esto da:

β(i)(ζ)βζ[(xiμx)(yiμy)Var(X)β(xiμx)2Var(X)]

μyμxvar(X)ζ=1n1

β(i)βxix¯n1[yiy¯1nj=1n(xjx¯)2βxix¯1nj=1n(xjx¯)2]

x~=xx¯sx

β(i)βxi~n1[yi~sysxxi~β]
probabilidadislogica
fuente
Entonces, ¿la historia trata sobre la influencia del punto de datos adicional? Me acostumbré más a la respuesta de impulso para los datos de series de tiempo, en el contexto estadístico toda influencia se describiría por efecto marginal o (mejor opción) coeficiente beta de regresión estandarizada. Bueno, realmente necesito más contexto para juzgar la pregunta y la respuesta, pero creo que esta es buena (+1 aún no, pero en espera).
Dmitrij Celov
@dmitrij: eso es lo que estaba implícito (o lo que deduje) del enlace: se trata de las propiedades de robustez de una estadística. Las funciones de influencia son un poco más generales que 1 punto de datos: puede redefinir la función delta para que sea una suma de ellas (muchas observaciones). Lo consideraría como un "Jacknife barato" hasta cierto punto, porque no es necesario volver a ajustar el modelo.
chanceislogic
10

Aquí hay una forma súper general de hablar sobre las funciones de influencia de una regresión. Primero voy a abordar una forma de presentar las funciones de influencia:

FΣFϵ(x)

Fϵ(x)=(1ϵ)F+ϵδx
δxΣ{x}Σ

De esto podemos definir la función de influencia con bastante facilidad:

θ^Fψi:XΓ

ψθ^,F(x)=limϵ0θ^(Fϵ(x))θ^(F)ϵ

θ^Fδx

La estimación de OLS es una solución al problema:

θ^=argminθE[(YXθ)T(YXθ)]

(x,y)

θ^ϵ=argminθ(1ϵ)E[(YXθ)T(YXθ)]+ϵ(yxθ)T(yxθ)

Tomando condiciones de primer orden:

{(1ϵ)E[XTX]+ϵxTx}θ^ϵ=(1ϵ)E[XTY]+ϵxTy

Dado que la función de influencia es solo una derivada de Gateaux, ahora podemos decir:

(E[XTX]+xTx)θ^ϵ+E[XTX]ψθ(x,y)=E[XTY]+xTy

ϵ=0θ^ϵ=θ^=E[XTX]1E[XTY]

ψθ(x,y)=E[XTX]1xT(yxθ)

La contraparte de muestra finita de esta función de influencia es:

ψθ(x,y)=(1NiXiTXi)1xT(yxθ)

En general, encuentro que este marco (trabajando con funciones de influencia como derivados de Gateaux) es más fácil de manejar.

Jayk
fuente