¿Cómo encontrar la matriz de covarianza de un polígono?

Imagine que tiene un polígono definido por un conjunto de coordenadas y su centro de masa está en . Puede tratar el polígono como una distribución uniforme con un límite poligonal. $(x_1,y_1)...(x_n,y_n)$ $(0,0)$

Busco un método que encuentre la matriz de covarianza de un polígono .

Sospecho que la matriz de covarianza de un polígono está estrechamente relacionada con el segundo momento de área , pero no sé si son equivalentes. Las fórmulas que se encuentran en el artículo de Wikipedia que vinculé parecen (una suposición aquí, no me resulta especialmente claro en el artículo) referirse a la inercia rotacional alrededor de los ejes x, y y z en lugar de los ejes principales del polígono.

(Por cierto, si alguien me puede indicar cómo calcular los ejes principales de un polígono, eso también me sería útil)

Es tentador simplemente realizar PCA en las coordenadas , pero al hacerlo se encuentra con el problema de que las coordenadas no están necesariamente distribuidas uniformemente alrededor del polígono y, por lo tanto, no son representativas de la densidad del polígono. Un ejemplo extremo es el contorno de Dakota del Norte, cuyo polígono se define por una gran cantidad de puntos que siguen al río Rojo, más solo dos puntos más que definen el borde occidental del estado.

pca covariance-matrix polygon Ingolifs
fuente

Por "encontrar", supongo que simplemente tomar muestras del polígono y luego calcular la covarianza de las muestras, ¿no es lo que tienes en mente?

Stephan Kolassa

Además, ¿puedes editar tu publicación para incluir coordenadas para tu polígono, para que la gente pueda jugar con él?

Stephan Kolassa

@StephanKolassa Me refiero a tratar el polígono como una densidad de probabilidad bivariada uniforme con límite poligonal. Claro, puede muestrear puntos y el límite sería lo mismo, pero estoy buscando un método a priori. La imagen es solo una ilustración de la pintura que usé. Los datos del mundo real que pretendo usar son los contornos de estados y regiones.

Ingolifs

Tiene razón en que el término habitual para "matriz de covarianza" es momento de inercia o segundo momento. Los ejes principales están orientados en sus direcciones propias. Ejecutar PCA en las coordenadas es incorrecto: equivale a suponer que toda la masa se encuentra en los vértices. Los métodos más directos de cálculo del baricentro, el primer momento, se analizan en mi publicación en gis.stackexchange.com/a/22744/664 . Los segundos momentos se calculan de la misma manera con modificaciones menores. Se necesitan consideraciones especiales en la esfera.

whuber

Funciona de la otra manera: calcula el tensor inercial y encuentra sus ejes principales a partir de eso. La técnica en su caso involucra el Teorema de Green, que muestra que las integrales requeridas se puede calcular como integrales de contorno alrededor de de la forma única dondeTales formas son fáciles de encontrar porque cualquier combinación lineal adecuada de y funcionará. La integral de contorno es una suma de integrales sobre los bordes.

μ_{k, l} (P) = \iint_{P} x^{k} y^{l} d x d y

$\mu_{k,l}(\mathcal{P})=\iint_{\mathcal{P}}x^ky^l\mathrm{d}x\mathrm{d}y$

\partial P

$\partial\mathcal{P}$

ω

$\omega$

d ω = x^{k} y^{l} d x d y .

$\mathrm{d}\omega=x^ky^l\mathrm{d}x\mathrm{d}y.$

x^{k} y^{l + 1} d x

$x^ky^{l+1}\mathrm{d}x$

x^{k + 1} y^{l} d y

$x^{k+1}y^l\mathrm{d}y$

whuber

Respuestas:

Hagamos un análisis primero.

Suponga que dentro del polígono su densidad de probabilidad es la función proporcional Entonces la constante de proporcionalidad es la inversa de la integral de sobre el polígono, $\mathcal{P}$ $p(x,y).$ $p$

μ_{0, 0} (P) = \iint_{P} p (x, y) d x d y .

$\mu_{0,0}(\mathcal{P})=\iint_{\mathcal P} p(x,y) \mathrm{d}x\,\mathrm{d}y.$

El baricentro del polígono es el punto de coordenadas promedio, calculado como sus primeros momentos. El primero es

μ_{1, 0} (P) = \frac{1}{μ_{0, 0} (P)} \iint_{P} x p (x, y) d x d y .

$\mu_{1,0}(\mathcal{P})=\frac{1}{\mu_{0,0}(\mathcal{P})} \iint_{\mathcal P} x\,p(x,y)\mathrm{d}x\,\mathrm{d}y.$

El tensor inercial se puede representar como la matriz simétrica de segundos momentos calculados después de traducir el polígono para colocar su baricentro en el origen: es decir, la matriz de segundos momentos centrales

μ_{k, l}^{'} (P) = \frac{1}{μ_{0, 0} (P)} \iint_{P} {(x - μ_{1, 0} (P))}^{k} {(y - μ_{0, 1} (P))}^{l} p (x, y) d x d y

$\mu^\prime_{k,l}(\mathcal{P}) = \frac{1}{\mu_{0,0}(\mathcal{P})} \iint_{\mathcal P} \left(x - \mu_{1,0}(\mathcal{P})\right)^k\,\left(y - \mu_{0,1}(\mathcal{P})\right)^l\,p(x,y)\mathrm{d}x\,\mathrm{d}y$

donde van de a a El tensor en sí, también conocido como matriz de covarianza, es $(k,l)$ $(2,0)$ $(1,1)$ $(0,2).$

I (P) = (\begin{matrix} μ_{2, 0}^{'} (P) & μ_{1, 1}^{'} (P) \\ μ_{1, 1}^{'} (P) & μ_{0, 2}^{'} (P) \end{matrix}) .

$I(\mathcal{P}) = \pmatrix{\mu^\prime_{2,0}(\mathcal{P}) & \mu^\prime_{1,1}(\mathcal{P}) \\ \mu^\prime_{1,1}(\mathcal{P}) & \mu^\prime_{0,2}(\mathcal{P})}.$

Un PCA de produce los ejes principales de estos son los vectores propios unitarios escalados por sus valores propios. $I(\mathcal{P})$ $\mathcal{P}:$

A continuación, veamos cómo hacer los cálculos. Debido a que el polígono se presenta como una secuencia de vértices que describe su límite orientado es natural invocar $\partial\mathcal P,$

Teorema de Green: where es una forma definida en una vecindad de y
$\iint_{P} d ω = \oint_{\partial P} ω$ $\iint_{\mathcal{P}} \mathrm{d}\omega = \oint_{\partial\mathcal{P}}\omega$ $\omega = M(x,y)\mathrm{d}x + N(x,y)\mathrm{d}y$ $\mathcal{P}$ $d ω = (\frac{\partial}{\partial x} N (x, y) - \frac{\partial}{\partial y} M (x, y)) d x d y .$ $\mathrm{d}\omega = \left(\frac{\partial}{\partial x}N(x,y) - \frac{\partial}{\partial y}M(x,y)\right)\mathrm{d}x\,\mathrm{d}y.$

Por ejemplo, con y densidad constante ( es decir , uniforme) podemos (por inspección) seleccionar uno de los muchos soluciones, como $\mathrm{d}\omega = x^k y^l \mathrm{d}x\mathrm{d}y$ $p,$

ω (x, y) = \frac{- 1}{l + 1} x^{k} y^{l + 1} d x .

$\omega(x,y) = \frac{-1}{l+1}x^k y^{l+1}\mathrm{d}x.$

El punto de esto es que la integral de contorno sigue los segmentos de línea determinados por la secuencia de vértices. Cualquier segmento de línea desde el vértice al vértice puede parametrizarse mediante una variable real en la forma $\mathbf{u}$ $\mathbf{v}$ $t$

t \to u + t w

$t \to \mathbf{u} + t\mathbf{w}$

donde es la dirección normal de la unidad de aPor lo tanto, los valores de varían de a Bajo esta parametrización, e son funciones lineales de y y son funciones lineales de Por lo tanto, el integrando de la integral de contorno sobre cada borde se convierte en una función polinómica de que se evalúa fácilmente para los pequeños y $\mathbf{w} \propto \mathbf{v}-\mathbf{u}$ $\mathbf{u}$ $\mathbf{v}.$ $t$ $0$ $|\mathbf{v}-\mathbf{u}|.$ $x$ $y$ $t$ $\mathrm{d}x$ $\mathrm{d}y$ $\mathrm{d}t.$ $t,$ $k$ $l.$

Implementar este análisis es tan sencillo como codificar sus componentes. En el nivel más bajo necesitaremos una función para integrar un polinomio de una forma sobre un segmento de línea. Las funciones de nivel superior los agregarán para calcular los momentos sin procesar y centrales para obtener el baricentro y el tensor inercial, y finalmente podemos operar en ese tensor para encontrar los ejes principales (que son sus vectores propios escalados). El Rsiguiente código realiza este trabajo. No tiene pretensiones de eficiencia: solo pretende ilustrar la aplicación práctica del análisis anterior. Cada función es sencilla y las convenciones de denominación son paralelas a las del análisis.

Se incluye en el código un procedimiento para generar polígonos cerrados, simplemente conectados, no auto-intersectantes (deformando al azar los puntos a lo largo de un círculo e incluyendo el vértice inicial como su punto final para crear un bucle cerrado). A continuación se presentan algunas declaraciones para trazar el polígono, mostrar sus vértices, unir el baricentro y trazar los ejes principales en rojo (el más grande) y azul (el más pequeño), creando un sistema de coordenadas centrado positivamente centrado en el polígono.

#
# Integrate a monomial one-form x^k*y^l*dx along the line segment given as an 
# origin, unit direction vector, and distance.
#
lintegrate <- function(k, l, origin, normal, distance) {
  # Binomial theorem expansion of (u + tw)^k
  expand <- function(k, u, w) {
    i <- seq_len(k+1)-1
    u^i * w^rev(i) * choose(k,i)
  }
  # Construction of the product of two polynomials times a constant.
  omega <- normal[1] * convolve(rev(expand(k, origin[1], normal[1])), 
                                expand(l, origin[2], normal[2]),
                                type="open")
  # Integrate the resulting polynomial from 0 to `distance`.
  sum(omega * distance^seq_along(omega) / seq_along(omega))
}
#
# Integrate monomials along a piecewise linear path given as a sequence of
# (x,y) vertices.
#
cintegrate <- function(xy, k, l) {
  n <- dim(xy)[1]-1 # Number of edges
  sum(sapply(1:n, function(i) {
    dv <- xy[i+1,] - xy[i,]               # The direction vector
    lambda <- sum(dv * dv)
    if (isTRUE(all.equal(lambda, 0.0))) {
      0.0
    } else {
      lambda <- sqrt(lambda)              # Length of the direction vector
      -lintegrate(k, l+1, xy[i,], dv/lambda, lambda) / (l+1)
    }
  }))
}
#
# Compute moments of inertia.
#
inertia <- function(xy) {
  mass <- cintegrate(xy, 0, 0)
  barycenter = c(cintegrate(xy, 1, 0), cintegrate(xy, 0, 1)) / mass
  uv <- t(t(xy) - barycenter)   # Recenter the polygon to obtain central moments
  i <- matrix(0.0, 2, 2)
  i[1,1] <- cintegrate(uv, 2, 0)
  i[1,2] <- i[2,1] <- cintegrate(uv, 1, 1)
  i[2,2] <- cintegrate(uv, 0, 2)
  list(Mass=mass,
       Barycenter=barycenter,
       Inertia=i / mass)
}
#
# Find principal axes of an inertial tensor.
#
principal.axes <- function(i.xy) {
  obj <- eigen(i.xy)
  t(t(obj$vectors) * obj$values)
}
#
# Construct a polygon.
#
circle <- t(sapply(seq(0, 2*pi, length.out=11), function(a) c(cos(a), sin(a))))
set.seed(17)
radii <- (1 + rgamma(dim(circle)[1]-1, 3, 3))
radii <- c(radii, radii[1])  # Closes the loop
xy <- circle * radii
#
# Compute principal axes.
#
i.xy <- inertia(xy)
axes <- principal.axes(i.xy$Inertia)
sign <- sign(det(axes))
#
# Plot barycenter and principal axes.
#
plot(xy, bty="n", xaxt="n", yaxt="n", asp=1, xlab="x", ylab="y",
     main="A random polygon\nand its principal axes", cex.main=0.75)
polygon(xy, col="#e0e0e080")
arrows(rep(i.xy$Barycenter[1], 2), 
       rep(i.xy$Barycenter[2], 2),
       -axes[1,] + i.xy$Barycenter[1],     # The -signs make the first axis .. 
       -axes[2,]*sign + i.xy$Barycenter[2],# .. point to the right or down.
       length=0.1, angle=15, col=c("#e02020", "#4040c0"), lwd=2)
points(matrix(i.xy$Barycenter, 1, 2), pch=21, bg="#404040")

whuber
fuente

+1 ¡Guau, esta es una gran respuesta!

ameba

Editar: No noté que Whuber ya había respondido. Dejaré esto como un ejemplo de otro enfoque (quizás menos elegante) del problema.

La matriz de covarianza

Deje que sea un punto al azar de la distribución uniforme en un polígono con zona . La matriz de covarianza es: $(X,Y)$ $P$ $A$

C = [\begin{matrix} C_{X X} & C_{X Y} \\ C_{X Y} & C_{Y Y} \end{matrix}]

$C = \begin{bmatrix} C_{XX} & C_{XY} \\ C_{XY} & C_{YY} \end{bmatrix}$

donde es la varianza de , es la varianza de , y es la covarianza entre y . Esto supone una media cero, ya que el centro de masa del polígono se encuentra en el origen. La distribución uniforme asigna densidad de probabilidad constante a cada punto en , entonces: $C_{XX} = E[X^2]$ $X$ $C_{YY} = E[Y^2]$ $Y$ $C_{XY} = E[XY]$ $X$ $Y$ $\frac{1}{A}$ $P$

\begin{matrix} (1) & C_{X X} = \frac{1}{A} \iint_{P} x^{2} d V C_{Y Y} = \frac{1}{A} \iint_{P} y^{2} d V C_{X Y} = \frac{1}{A} \iint_{P} x y d V \end{matrix}

$C_{XX} = \frac{1}{A} \underset{P}{\iint} x^2 dV \quad C_{YY} = \frac{1}{A} \underset{P}{\iint} y^2 dV \quad C_{XY} = \frac{1}{A} \underset{P}{\iint} x y dV \tag{1}$

Triangulación

En lugar de intentar integrar directamente sobre una región complicada como , podemos simplificar el problema dividiendo en subregiones triangulares: $P$ $P$ $n$

P = T_{1} \cup \dots \cup T_{n}

$P = T_1 \cup \cdots \cup T_n$

En su ejemplo, una posible partición se ve así:

Hay varias formas de producir una triangulación (ver aquí ). Por ejemplo, podría calcular la triangulación de Delaunay de los vértices, luego descartar los bordes que quedan fuera de (ya que puede no ser convexo como en el ejemplo). $P$

Las integrales sobre se pueden dividir en sumas de integrales sobre los triángulos: $P$

\begin{matrix} (2) & C_{X X} = \frac{1}{A} \sum_{i = 1}^{n} \iint_{T_{i}} x^{2} d V C_{Y Y} = \frac{1}{A} \sum_{i = 1}^{n} \iint_{T_{i}} y^{2} d V C_{X Y} = \frac{1}{A} \sum_{i = 1}^{n} \iint_{T_{i}} x y d V \end{matrix}

$C_{XX} = \frac{1}{A} \sum_{i=1}^n \underset{T_i}{\iint} x^2 dV \quad C_{YY} = \frac{1}{A} \sum_{i=1}^n \underset{T_i}{\iint} y^2 dV \quad C_{XY} = \frac{1}{A} \sum_{i=1}^n \underset{T_i}{\iint} x y dV \tag{2}$

Un triángulo tiene límites agradables y simples, por lo que estas integrales son más fáciles de evaluar.

Integrando sobre triángulos

Hay varias formas de integrarse sobre triángulos. En este caso, utilicé un truco que implica mapear un triángulo al cuadrado de la unidad. La transformación a coordenadas barcéntricas podría ser una mejor opción.

Aquí hay soluciones para las integrales anteriores, para un triángulo arbitrario definido por vértices . Dejar: $T$ $(x_1,y_1), (x_2,y_2), (x_3,y_3)$

v_{x} = [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}] v_{y} = [\begin{matrix} y_{1} \\ y_{2} \\ y_{3} \end{matrix}] \vec{1} = [\begin{matrix} 1 \\ 1 \\ 1 \end{matrix}] L = [\begin{matrix} 1 & 0 & 0 \\ 1 & 1 & 0 \\ 1 & 1 & 1 \end{matrix}]

$v_x = \left[ \begin{smallmatrix} x_1 \\ x_2 \\ x_3 \end{smallmatrix} \right] \quad v_y = \left[ \begin{smallmatrix} y_1 \\ y_2 \\ y_3 \end{smallmatrix} \right] \quad \vec{1} = \left[ \begin{smallmatrix} 1 \\ 1 \\ 1 \end{smallmatrix} \right] \quad L = \left[ \begin{smallmatrix} 1 & 0 & 0 \\ 1 & 1 & 0 \\ 1 & 1 & 1 \end{smallmatrix} \right]$

Entonces:

\begin{matrix} (3) & \iint_{T} x^{2} d V = \frac{A}{6} Tr (v_{x} v_{x}^{T} L) \iint_{T} y^{2} d V = \frac{A}{6} Tr (v_{y} v_{y}^{T} L) \iint_{T} x y d V = \frac{A}{12} ({\vec{1}}^{T} v_{x} v_{y}^{T} \vec{1} + v_{x}^{T} v_{y}) \end{matrix}

$\underset{T}{\iint} x^2 dV = \frac{A}{6} \text{Tr}(v_x v_x^T L) \quad \underset{T}{\iint} y^2 dV = \frac{A}{6} \text{Tr}(v_y v_y^T L) \quad \underset{T}{\iint} x y dV = \frac{A}{12} (\vec{1}^T v_x v_y^T \vec{1} + v_x^T v_y) \tag{3}$

Poniendo todo junto

Supongamos que y contienen las coordenadas x / y de los vértices de cada triángulo , como se anteriormente. Enchufe en para cada triángulo, observando que los términos del área se cancelan. Esto da la solución: $v_x^i$ $v_y^i$ $T_i$ $(3)$ $(2)$

\begin{matrix} (4) & C_{X X} = \frac{1}{6} \sum_{i = 1}^{n} Tr (v_{x}^{i} (v_{x}^{i})^{T} L) C_{Y Y} = \frac{1}{6} \sum_{i = 1}^{n} Tr (v_{y}^{i} (v_{y}^{i})^{T} L) C_{X Y} = \frac{1}{12} \sum_{i = 1}^{n} ({\vec{1}}^{T} v_{x}^{i} (v_{y}^{i})^{T} \vec{1} + (v_{x}^{i})^{T} v_{y}^{i}) \end{matrix}

$C_{XX} = \frac{1}{6} \sum_{i=1}^n \text{Tr} \big( v_x^i (v_x^i)^T L \big) \quad C_{YY} = \frac{1}{6} \sum_{i=1}^n \text{Tr} \big( v_y^i (v_y^i)^T L \big) \quad C_{XY} = \frac{1}{12} \sum_{i=1}^n \big( \vec{1}^T v_x^i (v_y^i)^T \vec{1} + (v_x^i)^T v_y^i \big) \tag{4}$

Ejes principales

Los ejes principales están dados por los vectores propios de la matriz de covarianza , al igual que en PCA. A diferencia de PCA, tenemos una expresión analítica para , en lugar de tener que estimarla a partir de puntos de datos muestreados. Tenga en cuenta que los vértices en sí no son una muestra representativa de la distribución uniforme en , por lo que uno no puede simplemente tomar la matriz de covarianza de la muestra de los vértices. Pero, * es * una función relativamente simple de los vértices, como se ve en . $C$ $C$ $P$ $C$ $(4)$

usuario20160
fuente

+1 Esto puede simplificarse permitiendo triángulos orientados , eliminando así la necesidad de una triangulación adecuada. En su lugar, puede establecer un centro arbitrario y sumar los valores (con signo) sobre los triángulos así es como se hace a menudo porque es mucho menos exigente. Es fácil ver que tal suma es esencialmente lo mismo que aplicar el Teorema de Green, porque cada término en la suma es, en última instancia, una función del bordeEste enfoque se ilustra en la sección "Área" en quantdec.com/SYSEN597/GTKAV/section2/chapter_11.htm .

O

$O$

O P_{i} P_{i + 1} :

$OP_iP_{i+1}:$

P_{i} P_{i + 1} .

$P_iP_{i+1}.$

whuber

@whuber Interesante, gracias por señalar esto

user20160

Ambas respuestas son buenas, aunque un poco por encima de mi nivel educativo. Una vez que esté seguro de entenderlos por completo, trataré de averiguar quién recibe la recompensa.

Ingolifs