Supongamos que tenemos la matriz de datos , que es -by- , y el vector de etiqueta , que es -by-one. Aquí, cada fila de la matriz es una observación, y cada columna corresponde a una dimensión / variable. (suponga )
Entonces, ¿qué data space
, variable space
, observation space
, model space
quiere decir?
¿Es el espacio abarcado por el vector columna, un espacio -D (degenerado) ya que tiene coordenadas mientras es rango , llamado espacio variable ya que está abarcado por el vector variable? ¿O se llama espacio de observación ya que cada dimensión / coordenada corresponde a una observación?
¿Y qué hay del espacio atravesado por los vectores de fila?
regression
multiple-regression
terminology
geometry
biplot
usuario3813057
fuente
fuente
Respuestas:
Estos términos aparecen en algunos libros sobre estadísticas multivariadas. Supongamos que tiene
n
individuos porp
matriz de datos de características cuantitativas. Luego, puede trazar individuos como puntos en el espacio donde los ejes son las características. Ese será un diagrama de dispersión clásico, también conocido como diagrama de espacio variable . Decimos que la nube de individuos abarca el espacio definido por las características de los ejes.También podría concebir el diagrama de dispersión con los puntos como variables y los ejes como individuos. Absolutamente como el anterior, solo al revés. Esa será la gráfica del espacio sujeto (o la gráfica del espacio de observación) con las variables que lo abarcan, los individuos que lo definen.
Tenga en cuenta que si (con tanta frecuencia)1
n>p
entonces, en el segundo caso, solo algunasp
dimensiones de lasn
dimensiones no son redundantes; eso significa que puede y puede dibujar losp
puntos variables en elp
diagrama dimensional 1 . Además, por tradición, los puntos variables generalmente están conectados con el origen y, por lo tanto, aparecen como vectores (flechas). Utilizamos la representación del espacio de sujeto principalmente para mostrar relaciones entre variables, por lo tanto, soltamos los ejes-sujetos y representamos los puntos como flechas, por conveniencia.Si las entidades (columnas de la matriz de datos) se centraron antes de dibujar el gráfico del espacio sujeto, entonces los cosenos de los ángulos entre los vectores variables son iguales a sus correlaciones de Pearson, mientras que las longitudes de los vectores son iguales a las normas de las variables (suma de cuadrados de la raíz ) o desviaciones estándar (si se divide por df ).
El espacio variable y el espacio sujeto son dos caras de la misma moneda, son el mismo espacio analítico euclidiano, solo se presentan como espejos entre sí. Comparten las mismas propiedades, como los valores propios y los vectores propios distintos de cero. Por lo tanto, es posible graficar sujetos y variables uno al lado del otro como puntos en el espacio de los ejes principales (u otra base ortogonal) de ese espacio analítico; este gráfico conjunto se llama biplot . No sé exactamente qué significa el término "espacio de datos": si significa algo específico, entonces supongo que es ese espacio analítico común del que el espacio sujeto y el espacio variable son las dos hipóstasis.
Algunos enlaces locales:
n=5
p=2
fuente