Funciones de influencia y OLS

Estoy tratando de entender cómo funcionan las funciones de influencia. ¿Podría alguien explicar en el contexto de una regresión OLS simple

y_{i} = α + β \cdot x_{i} + ε_{i}

$\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation}$

donde quiero la función de influencia para . $\beta$

regression least-squares stevejb
fuente

Todavía no hay una pregunta específica aquí: ¿quieres ver cómo se calcula la función de influencia? ¿Quieres un ejemplo empírico específico? ¿Una explicación heurística de lo que significa?

whuber

Si busca el artículo de 1986 de Frank Critchley "las funciones de influencia en los componentes principales" (no recuerdo el nombre exacto del artículo). Aquí define la función de influencia para la regresión ordinaria (que puede o no probar que mi respuesta es incorrecta).

probabilistico

Respuestas:

Las funciones de influencia son básicamente una herramienta analítica que se puede utilizar para evaluar el efecto (o "influencia") de eliminar una observación sobre el valor de una estadística sin tener que volver a calcular esa estadística . También se pueden usar para crear estimaciones de varianza asintótica. Si la influencia es igual a entonces la varianza asintótica es $I$ . $\frac{I^2}{n}$

La forma en que entiendo las funciones de influencia es la siguiente. Tiene algún tipo de CDF teórico, denotado por . Para OLS simples, tienes $F_{i}(y)=Pr(Y_{i}<y_{i})$

Dondees el CDF normal estándar, yes la varianza del error. Ahora puede mostrar que cualquier estadística será una función de este CDF, de ahí la notación(es decir, alguna función de). Ahora supongamos que cambiamos la funciónpor un "poco", a

P r (Y_{i} < y_{i}) = P r (α + β x_{i} + ϵ_{i} < y_{i}) = Φ (\frac{y_{i} - (α + β x_{i})}{σ})

$Pr(Y_{i}<y_{i})=Pr(\alpha+\beta x_{i} + \epsilon_{i} < y_{i})=\Phi\left(\frac{y_{i}-(\alpha+\beta x_{i})}{\sigma}\right)$

Φ (z)

$\Phi(z)$

σ^{2}

$\sigma^2$

S (F)

$S(F)$

F

$F$

F

$F$

Donde

, y

F_{(i)} (z) = (1 + ζ) F (z) - ζ δ_{(i)} (z)

$F_{(i)}(z)=(1+\zeta)F(z)-\zeta \delta_{(i)}(z)$

δ_{i} (z) = I (y_{i} < z)

$\delta_{i}(z)=I(y_{i}<z)$

. Por lo tanto,

representa el CDF de los datos con el punto de datos "i-ésimo" eliminado. Podemos hacer una serie taylor de

sobre

. Esto da:

ζ = \frac{1}{n - 1}

$\zeta=\frac{1}{n-1}$

F_{(i)}

$F_{(i)}$

F_{(i)} (z)

$F_{(i)}(z)$

ζ = 0

$\zeta=0$

S [F_{(i)} (z, ζ)] \approx S [F_{(i)} (z, 0)] + ζ [\frac{\partial S [F_{(i)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F_{(i)}(z,0)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

$F_{(i)}(z,0)=F(z)$

S [F_{(i)} (z, ζ)] \approx S [F (z)] + ζ [\frac{\partial S [F_{(i)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F(z)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

$\beta$

β = \frac{\frac{1}{n} \sum_{j = 1}^{n} (y_{j} - \bar{y}) (x_{j} - \bar{x})}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}}

$\beta=\frac{\frac{1}{n}\sum_{j=1}^{n}(y_{j}-\overline{y})(x_{j}-\overline{x})}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}$

Por lo tanto, beta es una función de dos estadísticas: la varianza de X y la covarianza entre X e Y. Estas dos estadísticas tienen representaciones en términos de CDF como:

c o v (X, Y) = \int (X - μ_{x} (F)) (Y - μ_{y} (F)) d F

$cov(X,Y)=\int(X-\mu_x(F))(Y-\mu_y(F))dF$

v a r (X) = \int (X - μ_{x} (F))^{2} d F

$var(X)=\int(X-\mu_x(F))^{2}dF$

μ_{x} = \int x d F

$\mu_x=\int xdF$

$F\rightarrow F_{(i)}=(1+\zeta)F-\zeta \delta_{(i)}$

μ_{x (i)} = \int x d [(1 + ζ) F - ζ δ_{(i)}] = μ_{x} - ζ (x_{i} - μ_{x})

$\mu_{x(i)}=\int xd[(1+\zeta)F-\zeta \delta_{(i)}]=\mu_x-\zeta(x_{i}-\mu_x)$

V a r (X)_{(i)} = \int (X - μ_{x (i)})^{2} d F_{(i)} = \int (X - μ_{x} + ζ (x_{i} - μ_{x}))^{2} d [(1 + ζ) F - ζ δ_{(i)}]

$Var(X)_{(i)}=\int(X-\mu_{x(i)})^{2}dF_{(i)}=\int(X-\mu_x+\zeta(x_{i}-\mu_x))^{2}d[(1+\zeta)F-\zeta \delta_{(i)}]$

$\zeta^{2}$

V a r (X)_{(i)} \approx V a r (X) - ζ [(x_{i} - μ_{x})^{2} - V a r (X)]

$Var(X)_{(i)}\approx Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]$

C o v (X, Y)_{(i)} \approx C o v (X, Y) - ζ [(x_{i} - μ_{x}) (y_{i} - μ_{y}) - C o v (X, Y)]

$Cov(X,Y)_{(i)}\approx Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]$

$\beta_{(i)}$ $\zeta$

β_{(i)} (ζ) \approx \frac{C o v (X, Y) - ζ [(x_{i} - μ_{x}) (y_{i} - μ_{y}) - C o v (X, Y)]}{V a r (X) - ζ [(x_{i} - μ_{x})^{2} - V a r (X)]}

$\beta_{(i)}(\zeta)\approx \frac{Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]}{Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]}$

Ahora podemos usar la serie Taylor:

β_{(i)} (ζ) \approx β_{(i)} (0) + ζ {[\frac{\partial β_{(i)} (ζ)}{\partial ζ}]}_{ζ = 0}

$\beta_{(i)}(\zeta)\approx \beta_{(i)}(0)+\zeta\left[\frac{\partial \beta_{(i)}(\zeta)}{\partial \zeta}\right]_{\zeta=0}$

Simplificando esto da:

β_{(i)} (ζ) \approx β - ζ [\frac{(x_{i} - μ_{x}) (y_{i} - μ_{y})}{V a r (X)} - β \frac{(x_{i} - μ_{x})^{2}}{V a r (X)}]

$\beta_{(i)}(\zeta)\approx \beta-\zeta\left[\frac{(x_{i}-\mu_x)(y_{i}-\mu_y)}{Var(X)}-\beta\frac{(x_{i}-\mu_x)^2}{Var(X)}\right]$

$\mu_y$ $\mu_x$ $var(X)$ $\zeta=\frac{1}{n-1}$

β_{(i)} \approx β - \frac{x_{i} - \bar{x}}{n - 1} [\frac{y_{i} - \bar{y}}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}} - β \frac{x_{i} - \bar{x}}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}}]

$\beta_{(i)}\approx \beta-\frac{x_{i}-\overline{x}}{n-1}\left[\frac{y_{i}-\overline{y}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}-\beta\frac{x_{i}-\overline{x}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}\right]$

$\tilde{x}=\frac{x-\overline{x}}{s_{x}}$

β_{(i)} \approx β - \frac{\tilde{x_{i}}}{n - 1} [\tilde{y_{i}} \frac{s_{y}}{s_{x}} - \tilde{x_{i}} β]

$\beta_{(i)}\approx \beta-\frac{\tilde{x_{i}}}{n-1}\left[\tilde{y_{i}}\frac{s_y}{s_x}-\tilde{x_{i}}\beta\right]$

probabilidadislogica
fuente

Entonces, ¿la historia trata sobre la influencia del punto de datos adicional? Me acostumbré más a la respuesta de impulso para los datos de series de tiempo, en el contexto estadístico toda influencia se describiría por efecto marginal o (mejor opción) coeficiente beta de regresión estandarizada. Bueno, realmente necesito más contexto para juzgar la pregunta y la respuesta, pero creo que esta es buena (+1 aún no, pero en espera).

Dmitrij Celov

@dmitrij: eso es lo que estaba implícito (o lo que deduje) del enlace: se trata de las propiedades de robustez de una estadística. Las funciones de influencia son un poco más generales que 1 punto de datos: puede redefinir la función delta para que sea una suma de ellas (muchas observaciones). Lo consideraría como un "Jacknife barato" hasta cierto punto, porque no es necesario volver a ajustar el modelo.

chanceislogic

Aquí hay una forma súper general de hablar sobre las funciones de influencia de una regresión. Primero voy a abordar una forma de presentar las funciones de influencia:

$F$ $\Sigma$ $F_\epsilon(x)$

F_{ϵ} (x) = (1 - ϵ) F + ϵ δ_{x}

$F_\epsilon(x)=(1-\epsilon)F+\epsilon\delta_x$

δ_{x}

$\delta_x$

Σ

$\Sigma$

{x}

$\{x\}$

Σ

$\Sigma$

De esto podemos definir la función de influencia con bastante facilidad:

$\hat{\theta}$ $F$ $\psi_i:\mathcal{X}\to\Gamma$

ψ_{\hat{θ}, F} (x) = lim_{ϵ \to 0} \frac{\hat{θ} (F_{ϵ} (x)) - \hat{θ} (F)}{ϵ}

$\begin{equation} \psi_{\hat{\theta},F}(x)=\lim\limits_{\epsilon\to 0}\dfrac{\hat{\theta}(F_\epsilon(x))-\hat{\theta}(F)}{\epsilon} \end{equation}$

$\hat\theta$ $F$ $\delta_x$

La estimación de OLS es una solución al problema:

\hat{θ} = \arg min_{θ} E [(Y - X θ)^{T} (Y - X θ)]

$\hat\theta=\arg\min_\theta E[(Y-X\theta)^T(Y-X\theta)]$

$(x,y)$

{\hat{θ}}_{ϵ} = \arg min_{θ} (1 - ϵ) E [(Y - X θ)^{T} (Y - X θ)] + ϵ (y - x θ)^{T} (y - x θ)

$\hat\theta_\epsilon = \arg\min_\theta (1-\epsilon)E[(Y-X\theta)^T(Y-X\theta)]+\epsilon (y-x\theta)^T(y-x\theta)$

Tomando condiciones de primer orden:

{(1 - ϵ) E [X^{T} X] + ϵ x^{T} x} {\hat{θ}}_{ϵ} = (1 - ϵ) E [X^{T} Y] + ϵ x^{T} y

$\left\{(1-\epsilon)E[X^TX]+\epsilon x^Tx\right\}\hat\theta_\epsilon = (1-\epsilon)E[X^TY]+\epsilon x^Ty$

Dado que la función de influencia es solo una derivada de Gateaux, ahora podemos decir:

- (E [X^{T} X] + x^{T} x) {\hat{θ}}_{ϵ} + E [X^{T} X] ψ_{θ} (x, y) = - E [X^{T} Y] + x^{T} y

$-(E[X^TX]+x^Tx)\hat\theta_\epsilon + E[X^TX]\psi_{\theta}(x,y) = -E[X^TY] + x^Ty$

$\epsilon=0$ $\hat\theta_\epsilon=\hat\theta=E[X^TX]^{-1}E[X^TY]$

ψ_{θ} (x, y) = E [X^{T} X]^{- 1} x^{T} (y - x θ)

$\psi_{\theta}(x,y)=E[X^TX]^{-1}x^T(y-x\theta)$

La contraparte de muestra finita de esta función de influencia es:

ψ_{θ} (x, y) = {(\frac{1}{N} \sum_{i} X_{i}^{T} X_{i})}^{- 1} x^{T} (y - x θ)

$\psi_{\theta}(x,y)=\left(\dfrac{1}{N}\sum_i X_i^TX_i\right)^{-1}x^T(y-x\theta)$

En general, encuentro que este marco (trabajando con funciones de influencia como derivados de Gateaux) es más fácil de manejar.

Jayk
fuente