Sobre la importancia del supuesto iid en el aprendizaje estadístico

54

En el aprendizaje estadístico, implícita o explícitamente, siempre se supone que el conjunto de entrenamiento $\mathcal{D} = \{ \bf {X}, \bf{y} \}$ está compuesto de $N$ tuplas de entrada / respuesta $({\bf{X}}_i,y_i)$ que se extraen independientemente de la misma distribución conjunta $\mathbb{P}({\bf{X}},y)$ con

p (X, y) = p (y | X) p (X)

$p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}})$

y $p( y \vert {\bf{X}})$ la relación que estamos tratando de capturar a través de un algoritmo de aprendizaje particular. Matemáticamente, esta suposición de iid escribe:

\begin{matrix} (X_{i}, y_{i}) \sim P (X, y), \forall i = 1, . . ., N \\ (X_{i}, y_{i}) independent of (X_{j}, y_{j}), \forall i \neq j \in {1, . . ., N} \end{matrix}

$\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j \in \{1,...,N\} \end{gather}$

Creo que todos podemos estar de acuerdo en que esta suposición rara vez se cumple en la práctica, vea esta pregunta SE relacionada y los sabios comentarios de @Glen_b y @Luca.

Mi pregunta es por lo tanto:

¿Dónde exactamente el supuesto de iid se vuelve crítico en la práctica?

[Contexto]

Pregunto esto porque puedo pensar en muchas situaciones en las que no se necesita un supuesto tan estricto para entrenar un determinado modelo (por ejemplo, métodos de regresión lineal), o al menos uno puede evitar el supuesto de iid y obtener resultados sólidos. En realidad, los resultados generalmente se mantendrán igual, son más bien las inferencias que se pueden sacar las que cambiarán (por ejemplo, estimadores de HAC con heterocedasticidad y autocorrelación en regresión lineal: la idea es reutilizar los viejos pesos de regresión OLS pero adaptar el comportamiento de muestra finita del estimador MCO para explicar la violación de los supuestos de Gauss-Markov).

Por lo tanto, supongo que se requiere la suposición de iid para no poder entrenar un algoritmo de aprendizaje en particular, sino para garantizar que técnicas como la validación cruzada se puedan utilizar para inferir una medida confiable de la capacidad del modelo de generalizar bien , lo que es lo único que nos interesa al final del día en el aprendizaje estadístico porque demuestra que de hecho podemos aprender de los datos. Intuitivamente, puedo entender que el uso de la validación cruzada en datos dependientes podría estar sesgado de manera optimista (como se ilustra / explica en este interesante ejemplo ).

Para mí, iid no tiene nada que ver con la capacitación de un modelo en particular, sino todo lo que tiene que ver con la generalización de ese modelo . Esto parece estar de acuerdo con un artículo que encontré por Huan Xu et al, ver "Robustez y generalización para las muestras de Markovian" aquí .

¿Estarías de acuerdo con eso?

[Ejemplo]

Si esto puede ayudar a la discusión, considerar el problema de usar el algoritmo LASSO para llevar a cabo una selección inteligente entre características dadas muestras de entrenamiento con Podemos suponer además que: $P$ $N$ $({\bf{X}}_i,y_i)$ $\forall i=1,...,N$

X_{i} = [X_{i 1}, . . ., X_{i P}]

${\bf{X}}_i=[X_{i1},...,X_{iP}]$

Las entradas dependen por lo tanto, conduce a una violación de la hipótesis iid (por ejemplo, para cada característica observamos una series de tiempo punto, por lo tanto, la introducción de auto-correlación temporal) ${\bf{X}}_i$ $j=1,..,P$ $N$
Las respuestas condicionales soy independiente. $y_i \vert {\bf{X}}_i$
Tenemos . $P \gg N$

De qué manera (s) la violación de la suposición de iid puede plantear problemas en ese caso, suponiendo que planeemos determinar el coeficiente de penalización LASSO utilizando un enfoque de validación cruzada (en el conjunto de datos completo) + usar una validación cruzada anidada para tener una idea del error de generalización de esta estrategia de aprendizaje (podemos dejar a un lado la discusión sobre los pros / contras inherentes del LASSO, excepto si es útil). $\lambda$

machine-learning cross-validation non-independent iid Cuádruple
fuente

1

¿Puede dar un marco de referencia que sea de su interés para que la discusión no sea demasiado amplia en todos los métodos? ¿Estamos hablando de regresión lineal aquí? ¿O estamos hablando de estimación puntual para parámetros usando, digamos MLE? ¿O estamos hablando del marco CLT?

Greenparker

2

Si también está asumiendo

depende, a continuación, en la regresión logística penalizado, uno penaliza la probabilidad logarítmica. Si los datos no son independientes, no puede anotar la probabilidad de registro conjunta y, por lo tanto, no puede completar el problema de optimización asociado.

y_{i}

$y_i$

Greenparker

1

No, estoy pensando al revés: si saltas rápidamente a una suposición iid, es posible que no incluyas retrasos de

, falsamente (para propósitos como la imparcialidad, pero también perjudicando el poder predictivo) creyendo que no son necesarios.

y

$y$

Christoph Hanck

3

No estoy de acuerdo en que el supuesto de independencia sea "comúnmente violado". La serie temporal es un caso muy especial, más bien una excepción que un ejemplo típico. La suposición de Iid le permite simplificar su modelo y construir uno más parsimonioso y a menudo se puede hacer (por ejemplo, sus casos se dibujan al azar , por lo que se puede suponer que son independientes).

Tim

2

y_{i}

$y_i$

X_{i}

$\mathbf{X}_i$

i

$i$

32

$(\mathbf{X}_i, y_i)$ $i = 1, \ldots, N$

Una suposición fundamental

$y$ $\mathbf{X}$ $p(y \mid \mathbf{X})$

$y_i$ $X_i$ $p(y_i \mid X_i)$

$y_i$ $i$ $X_i$ $\mathbf{X}_i$

A continuación, el enfoque se centrará principalmente en el papel de la independencia.

Modelado

$y$ $\mathbf{X}$

$p(y \mid \mathbf{X})$ $y_i$ $\mathbf{X}_i$ $\mathbf{X}_i$
$p(\mathbf{X}, y)$ $(\mathbf{X}, y)$ $p(\mathbf{X} \mid y)$ $p(y)$ $p(y \mid \mathbf{X})$

$p(y \mid \mathbf{X})$

Consistencia y límites de error

$p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$ $N$

$\mathbf{X}_i$ $\frac{1}{N} \mathbb{X}^T \mathbb{X} \to \Sigma$ $N \to \infty$ $\mathbb{X}$ $\mathbf{X}_i^T$

$N$

Si tenemos un conocimiento más detallado sobre la estructura de dependencia, podemos optar por reemplazar el supuesto de independencia de trabajo utilizado para modelar con un modelo que también capture la estructura de dependencia. Esto a menudo se hace para series de tiempo. Un mejor modelo de trabajo puede resultar en un método más eficiente.

Evaluación modelo

$p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$

Al igual que con el ensacado, una división aleatoria del conjunto de datos "arruinará" cualquier estructura de dependencia. Sin embargo, para los métodos basados en los supuestos de independencia de trabajo, los supuestos de ergodicidad más débiles que iid deberían ser suficientes para que las estimaciones de la evaluación sean razonables, aunque los errores estándar en estas estimaciones serán muy difíciles de encontrar.

[ Editar: La dependencia entre las variables dará como resultado una distribución del modelo aprendido que difiere de la distribución bajo el supuesto iid. La estimación producida por la validación cruzada obviamente no está relacionada con el error de generalización. Si la dependencia es fuerte, lo más probable es que sea una estimación pobre.]

Resumen (tl; dr)

$p(y \mid \mathbf{X})$ $\mathbf{X}$

$y$ $\mathbf{X}$

Una suposición útil de modelado de trabajo que nos permite derivar métodos de aprendizaje
Una suposición suficiente pero no necesaria para demostrar la coherencia y proporcionar límites de error
una suposición suficiente pero no necesaria para usar técnicas de división de datos aleatorios, como el empaquetamiento para el aprendizaje y la validación cruzada para la evaluación.

Comprender con precisión qué alternativas al iid también son suficientes no es trivial y, en cierta medida, es un tema de investigación.

NRH
fuente

2

Esta es una respuesta extremadamente bien pulida. Es perfecto y me da suficiente referencia para el autoestudio, muchas gracias por eso @NRH Estoy encantado. Solo dejaré la recompensa para alentar otras opiniones sobre la pregunta, pero ya marqué esto como la respuesta aceptada, ya que aborda maravillosamente todas mis preocupaciones originales.

Quantuple

10

Lo IID asunción estados es que son variables aleatorias independientes e idénticamente distribuidas . Puede definir formalmente qué significa, pero informalmente dice que todas las variables proporcionan el mismo tipo de información independientemente una de la otra (puede leer también sobre la intercambiabilidad relacionada ).

De las ideas abstractas saltemos por un momento a un ejemplo concreto: en la mayoría de los casos, sus datos pueden almacenarse en una matriz, con observaciones en fila y variables en columna. Si supone que sus datos son iid , significa que debe preocuparse solo por las relaciones entre columnas y no tener que preocuparse por las relaciones entre filas. Si te preocuparas por ambos, modelarías la dependencia de columnas en columnas y filas en filas, es decir, todo en todo. Es muy difícil hacer simplificaciones y construir un modelo estadístico de todo dependiendo de todo.

Usted notó correctamente que la intercambiabilidad hace posible que usemos métodos como la validación cruzada o bootstrap, pero también permite usar el teorema del límite central y nos permite hacer simplificaciones útiles para modelar (pensar en términos de columnas) )

Como notó en el ejemplo de LASSO, el supuesto de independencia a menudo se suaviza a independencia condicional . Incluso en tal caso necesitamos "partes" independientes e idénticamente distribuidas. A menudo se hace una suposición similar y más suave para los modelos de series de tiempo, que usted mencionó, que asumen estacionariedad (por lo tanto, hay dependencia pero también hay una distribución común y la serie se estabiliza con el tiempo, nuevamente partes "iid"). Se trata de observar una serie de cosas similares que conllevan la misma idea sobre algún fenómeno general. Si tenemos varias cosas distintas y dependientes, no podemos hacer ninguna generalización.

Lo que debe recordar es que esto es solo una suposición, no somos estrictos al respecto. Se trata de tener suficientes cosas que, independientemente, transmitan información similar sobre algún fenómeno común. Si las cosas se influenciaran entre sí, obviamente transmitirían información similar, por lo que no serían tan útiles.

Imagina que quieres aprender sobre las habilidades de los niños en un salón de clases, por lo que les das algunas pruebas. Puede usar los resultados de la prueba como un indicador de las habilidades de los niños solo si los hicieron por sí mismos, independientemente el uno del otro. Si interactuaran, probablemente medirías las habilidades del niño más inteligente o el más influyente. No significa que deba suponer que no hubo interacción o dependencia entre los niños, sino que simplemente hicieron las pruebas por sí mismos. Los niños también deben estar "distribuidos de manera idéntica", por lo que no pueden provenir de diferentes países, hablar idiomas diferentes, estar en edades diferentes, ya que dificultará la interpretación de los resultados (tal vez no entendieron las preguntas y respondieron al azar). Si puede suponer que sus datos son iidentonces puedes concentrarte en construir un modelo general. Puede lidiar con datos que no son de iid , pero luego debe preocuparse por el "ruido" en sus datos mucho más.

Además de su pregunta principal, también está preguntando acerca de la validación cruzada con datos que no son de iid . Si bien parece subestimar la importancia de la suposición de iid , al mismo tiempo exagera los problemas de no cumplir con estas suposiciones para la validación cruzada. Hay varias formas de tratar esos datos cuando utilizamos métodos de remuestreo como bootstrap o validación cruzada. Si se trata de series de tiempo, no puede suponer que los valores son independientes, por lo que tomar la fracción aleatoria de valores sería una mala idea porque ignoraría la estructura autocorrelacionada de los datos. Por eso, con las series de tiempo usualmente usamos un paso adelante de validación cruzada, es decir, forma parte de la serie para predecir el siguiente valor (no se utiliza para modelar). Del mismo modo, si sus datos tienen una estructura en clúster , puede muestrear clústeres completos para preservar la naturaleza de los datos. Así como con el modelado, podemos hacer frente a la no iid -sness también cuando se hace la validación cruzada, pero tenemos que adaptar nuestros métodos a la naturaleza de los datos ya que los métodos diseñados para iid de datos no se aplican en estos casos.

Tim
fuente

y_{i} | X_{i}

$y_i \vert {\bf{X}}_i$

X_{i}

$\bf{X}_i$

(ctd) ... En otras palabras, aunque su respuesta definitivamente arroja algo de luz sobre el concepto iid, me gustaría saber más sobre una base técnica: cuando esto se viola, ¿cuáles son los efectos?

Quantuple

@Quantuple luego usa métodos para datos que no son iid, por ejemplo, en series de tiempo de bloques enteros de datos en bootstrap, etc.

Tim

Gracias de nuevo. De hecho, recuerdo haber leído en alguna parte sobre tales técnicas. ¿Hay alguna fuente que discuta todos los posibles métodos candidatos? Acabo de encontrarme con el artículo de C. Bergmeir, R. Hyndman, B. Koo "Una nota sobre la validez de la validación cruzada para evaluar la predicción de series de tiempo" que intentaré leer lo antes posible.

Quantuple

1

@Quantuple comprueba el clásico "Una introducción a Bootstrap" de Efron y Tibshirani y "Bootstrap Methods and her Application" de Davison y Hinkley para leer sobre bootstrap (las mismas ideas se aplican a la validación cruzada); Los manuales de series de tiempo describen cómo usar la validación cruzada y el bootstrap para dichos datos (es decir, un paso adelante de validación cruzada). Mira también mi edición.

Tim

3

El único lugar donde se puede ignorar con seguridad el iid es en las estadísticas de pregrado y los cursos de aprendizaje automático. Has escrito que:

se puede evitar el supuesto de iid y obtener resultados sólidos. En realidad, los resultados generalmente se mantendrán igual, son más bien las inferencias que uno puede sacar lo que cambiará ...

Esto solo es cierto si se supone que la forma funcional de los modelos es básicamente correcta. Pero, tal suposición es aún menos plausible que iid.

Hay al menos dos formas en que iid es críticamente importante en términos de modelado aplicado:

Es una suposición explícita en la mayoría de las inferencias estadísticas, como se observa en su pregunta. En la mayoría de los modelos del mundo real, en algún momento necesitamos usar la inferencia para probar la especificación, como durante la selección de variables y la comparación de modelos. Entonces, si bien cada ajuste de modelo en particular puede estar bien a pesar de las violaciones de iid, de todos modos puede terminar eligiendo el modelo incorrecto.
Considero que pensar en las violaciones de iid es una forma útil de pensar sobre el mecanismo de generación de datos, que a su vez me ayuda a pensar sobre la especificación apropiada de un modelo a priori. Dos ejemplos:
- Si los datos están agrupados, esto es una violación de iid. Un remedio para esto puede ser un modelo de mezcla. La inferencia que sacaré de una mezcla de modelos es generalmente completamente diferente a la que extraigo de OLS.
- Las relaciones no lineales entre las variables dependientes e independientes a menudo aparecen cuando se inspeccionan los residuos como parte de la investigación del iid.

Por supuesto, en casi todos los modelos que he construido, he fallado en mi búsqueda para reducir la distribución de los residuos a algo cercano a una distribución verdaderamente normal. Pero, sin embargo, siempre gano mucho intentando realmente, realmente, duro hacerlo.

Tim
fuente

Gracias por su respuesta, que es muy perspicaz. Con la última oración de (1) quiere decir que puede tener varios modelos con un ajuste decente a los datos observados, pero cuando usará técnicas de selección de modelo estándar (por ejemplo, validación cruzada) no elegirá el mejor ( en términos de generalización) porque la inferencia que usted dibuja estará sesgada debido a la violación de IID? (2) Me parece que habla de los residuos de IID como parte de una especificación funcional (por ejemplo, residuos de regresión) que no invalida lo que escribe (ctd) ...

Quantuple

(ctd) ... pero la pregunta original estaba relacionada con ejemplos de entrenamiento sin iid (x, y) no con residuos sin iid después de estimar un modelo. Supongo que mi pregunta podría ser, cuando tiene ejemplos de entrenamiento que no son iid (por ejemplo, series de tiempo), ¿tiene que agregar un paso de preprocesamiento para que sean iid? Si no lo hace, y aplica el procedimiento estándar para estimar / validar su modelo, ¿dónde está la advertencia?

Quantuple

1

Cuando tiene ejemplos de capacitación que no son iid, la idea es encontrar un modelo que tenga en cuenta la naturaleza no iid y produzca residuos que sean iid. Si bien hay algunos problemas en los que tiene sentido procesar previamente los datos (por ejemplo, transformaciones de variables en regresión lineal), muchos problemas de iid se abordan mejor al encontrar un modelo que aborde explícitamente el problema de iid. Por ejemplo, funciones de transferencia en series de tiempo o modelos jerárquicos en datos de sección transversal.

Tim

Estoy de acuerdo con el hecho de que, dado que los datos de series temporales generalmente exhiben alguna forma de dependencia, es natural tratar de capturar esto a través de modelos estadísticos diseñados para ello, por ejemplo, funciones de transferencia. Esto es en lo que respecta al entrenamiento. Ahora, en lo que respecta a la validación cruzada (CV), supongo que también necesito métodos especiales para dar cuenta de la no identidad. Quiero decir que el uso de las funciones de transferencia no cambió el hecho de que mis datos no se encuentran en primer lugar. ¿Hay una lista de tales métodos especiales en alguna parte? ¿Qué tan grande es el sesgo optimista cuando se usa el método CV estándar con datos que no son iid?

Quantuple

1

Dependería de la naturaleza del método de validación cruzada y del problema. Creo que el truco es utilizar métodos de validación cruzada que no estén implícitamente estructurados alrededor de iid. Por ejemplo, una Jacknife tendría poco sentido. Pero, dividir la muestra en muestras de estimación, prueba y validación, probablemente lo haría. Pero, esta es realmente una pregunta diferente a la original, y no es mi área de especialización.

Tim

2

En mi opinión, hay dos razones bastante mundanas por las cuales la suposición del iid es importante en el aprendizaje estadístico (o las estadísticas en general).

Muchas matemáticas detrás de escena dependen de esta suposición. Si desea demostrar que su método de aprendizaje realmente funciona para más de un conjunto de datos, su suposición eventualmente surgirá. Es posible evitarlo, pero las matemáticas se vuelven varias veces más difíciles.
Si desea aprender algo de los datos, debe asumir que hay algo que aprender. El aprendizaje es imposible si cada punto de datos es generado por un mecanismo diferente. Por lo tanto, es esencial suponer que algo unifica un conjunto de datos dado. Si suponemos que los datos son aleatorios, entonces este algo es naturalmente una distribución de probabilidad, porque la distribución de probabilidad abarca toda la información sobre la variable aleatoria.

$x_1,...,x_n$ $x_i$ $F_n$

$(x_{1}, . . ., x_{n}) \sim F_{n} .$ $(x_1,...,x_n)\sim F_n.$
$F_n$ $F_m$ $n$ $m$ $n$ $F_n$ $F_n$ $n$ $F_n=F^n,$ $x_i\sim F$ $F_n$ $F_m$ $n$ $F$

mpiktas
fuente

x

$x$

y

$y$

x

$x$

(ctd) ... pero como lo ha indicado en su primer punto, la suposición de ejemplos de entrenamiento iid volverá cuando veamos las propiedades de generalización del LASSO. Lo que sería bueno (y lo que estoy buscando desesperadamente, supongo) es una referencia / explicación técnica simple que muestra cómo la violación del supuesto iid introduce un sesgo optimista en el estimador de validación cruzada, por ejemplo.

Quantuple

y_{i} = α + β_{1} x_{1 i} + ε_{i}

$y_i = \alpha + \beta_1 x_{1i} + \varepsilon_i$

i = 1, . . ., n / 2

$i=1,...,n/2$

y_{i} = α + β_{2} x_{2 i} + ε_{i}

$y_i=\alpha+\beta_2x_{2i}+\varepsilon_i$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

x_{1 i}

$x_{1i}$

x_{2 i}

$x_{2i}$

i = 1, . . ., n / 2

$i=1,...,n/2$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

x

$x$

E [y | X]

$E[y \vert X]$

1

Me gustaría enfatizar que, en algunas circunstancias, los datos no son id y el aprendizaje estadístico aún es posible. Es crucial tener un modelo identificable para la distribución conjunta de todas las observaciones; Si las observaciones son iid, entonces esta distribución conjunta se obtiene fácilmente de la distribución marginal de las observaciones individuales. Pero en algunos casos, la distribución conjunta se da directamente, sin recurrir a una distribución marginal.

Y = X α + Z u + ε

$\let\epsilon\varepsilon Y = X \alpha + Z u + \epsilon$

Y \in R^{n}

$\def\R{\mathbb{R}}Y \in \R^n$

X \in R^{n \times p}

$X \in \R^{n\times p}$

α \in R^{p}

$\alpha \in \R^p$

Z \in R^{n \times q}

$Z \in \R^{n\times q}$

u \in R^{q}

$u \in \R^q$

ε \in R^{n}

$\epsilon\in\R^n$

X

$X$

Z

$Z$

α

$\alpha$

u

$u$

u \sim N (0, τ I_{q})

$\def\N{\mathcal{N}} u\sim \N(0,\tau I_q)$

ε \sim N (0, σ^{2} I_{n})

$\epsilon \sim \N(0,\sigma^2 I_n)$

τ

$\tau$

σ^{2}

$\sigma^2$

$Y$

Y \sim N (X α, τ Z Z^{'} + σ^{2} I_{n}) .

$Y \sim \N(X\alpha, \tau ZZ' + \sigma^2 I_n).$

α

$\alpha$

τ

$\tau$

σ^{2}

$\sigma^2$

Y

$Y$

n

$n$

Elvis
fuente

Sobre la importancia del supuesto iid en el aprendizaje estadístico

Respuestas:

Una suposición fundamental

Modelado

Consistencia y límites de error

Evaluación modelo

Resumen (tl; dr)