Supongamos que se nos da un conjunto de datos de la forma y . Se nos da la tarea de predecir función de los valores de . Estimamos dos regresiones donde: y x y
También estimamos una regresión que predice valores de función de los valores de , es decir:
Supongamos que ahora se nos dan valores de , entonces tendríamos dos métodos diferentes para predecir :
¿Cuál sería mejor en general?
Supongo que la primera ecuación sería mejor porque utiliza información de las dos formas de puntos de datos, mientras que la segunda ecuación utiliza información de solo puntos de datos que tienen valores de predicción . Mi formación en estadística es limitada y, por lo tanto, me gustaría buscar asesoramiento profesional.
Además, en general, ¿cuál es el mejor enfoque hacia los datos que tienen información incompleta? En otras palabras, ¿cómo podemos extraer la mayor cantidad de información de los datos que no tienen valores en todas las dimensiones?
Respuestas:
+1, creo que esta es una pregunta realmente interesante y clara. Sin embargo, más información nos ayudará a pensar en esta situación.
Por ejemplo, ¿cuál es la relación entre e ? Es muy posible que no haya una, en cuyo caso, la regresión no ofrece ninguna ventaja en relación con la regresión . (En realidad, tiene una desventaja muy leve, en el sentido de que los errores estándar serán un poco más grandes y, por lo tanto, las beta podrían estar un poco más lejos, en promedio, de sus valores verdaderos). Si hay una función de mapeo a , entonces, por definición, hay información real allí, y la regresión será mejor en la situación inicial.Xnorte y ( 1 ) ( 2 ) Xnorte y ( 1 )
Luego, ¿cuál es la naturaleza de la relación entre y x n ? ¿Hay uno? Por ejemplo, cuando realizamos experimentos, (generalmente) intentamos asignar números iguales de unidades de estudio a cada combinación de valores de las variables explicativas. (Este enfoque utiliza un múltiplo del producto cartesiano de los niveles de los IV y se denomina diseño 'factorial completo'; también hay casos en los que los niveles se confunden intencionalmente para guardar datos, llamado ' factorial fraccional( x1, ⋯ , xn - 1) Xnorte 'diseños.) Si las variables explicativas son ortogonales, su tercera regresión arrojará absolutamente, exactamente 0. Por otro lado, en un estudio observacional las covariables están casi siempre correlacionadas. Cuanto más fuerte es esa correlación, menos información existe en . Estos hechos modularán los méritos relativos de la regresión ( 1 ) y la regresión ( 2 ) . Xnorte ( 1 ) ( 2 )
Sin embargo, (desafortunadamente quizás) es más complicado que eso. Uno de los conceptos importantes, pero difíciles, en la regresión múltiple es la multicolinealidad . Si intenta estimar la regresión , encontrará que tiene una multicolinealidad perfecta y su software le dirá que la matriz de diseño no es invertible. Por lo tanto, mientras que la regresión ( 1 ) puede ofrecer una ventaja relativa a la regresión ( 2 ) , la regresión ( 4 ) no lo hará.( 4 ) ( 1 ) ( 2 ) ( 4 )
La pregunta más interesante (y la que estás haciendo) es ¿qué pasa si usas la regresión para hacer predicciones sobre y usando los valores estimados de x n de las predicciones de regresión ( 3 ) ? (Es decir, no está estimando la regresión ( 4 ): está conectando la salida de la ecuación de predicción estimada en la regresión ( 3 ) al modelo de predicción ( 4 ) .) La cuestión es que en realidad no está obteniendo ninguna nueva información aquí. Cualquier información que exista en la primera n( 1 ) y Xnorte ( 3 ) ( 4 ) ( 3 ) ( 4 ) valores de 1 predictor para cada observación ya se están utilizando de manera óptima por regresión ( 2 ) , por lo que no hay ganancia. n - 1 ( 2 )
fuente