¿Por qué necesitamos una regresión multivariada (a diferencia de un montón de regresiones univariadas)?

28

Acabo de leer este maravilloso libro: Análisis estadístico multivariado aplicado por Johnson y Wichern . La ironía es que todavía no puedo entender la motivación para usar modelos multivariados (regresión) en lugar de modelos univariados (regresión) separados. Revisé las publicaciones stats.statexchange 1 y 2 que explican (a) la diferencia entre la regresión múltiple y multivariada y (b) la interpretación de los resultados de la regresión multivariada, pero no puedo modificar el uso de modelos estadísticos multivariados de toda la información I conéctese en línea sobre ellos.

Mis preguntas son:

  1. ¿Por qué necesitamos regresión multivariante? ¿Cuál es la ventaja de considerar los resultados de forma simultánea en lugar de individualmente, para sacar inferencias?
  2. Cuándo usar modelos multivariados y cuándo usar múltiples modelos univariados (para múltiples resultados).
  3. Tome un ejemplo dado en el sitio de UCLA con tres resultados: locus de control, autoconcepto y motivación. Con respecto a 1. y 2., ¿podemos comparar el análisis cuando hacemos tres regresiones múltiples univariadas versus una regresión múltiple multivariada? ¿Cómo justificar uno sobre otro?
  4. No he encontrado muchos trabajos académicos que utilicen modelos estadísticos multivariados. ¿Esto se debe a la suposición de normalidad multivariada, la complejidad del ajuste / interpretación del modelo o alguna otra razón específica?
KarthikS
fuente
18
Los modelos univariados separados ignoran las correlaciones.
jwimberley
3
Sí, hay muchos fenómenos en el mundo que no pueden ser modelados por variables aleatorias independientes.
Michael R. Chernick
2
@jwimberley ¿Podría ampliar las consecuencias de ignorar estas correlaciones en una respuesta?
Jake Westfall
2
Solo una nota sobre el título: la reducción de dimensionalidad (PCA, análisis factorial, cualquier método no lineal, etc.) y la agrupación generalmente también se consideran métodos "multivariados". Parece que su pregunta se centra específicamente en la regresión multivariada (frente a un montón de regresiones univariadas), por lo que le sugiero que la ponga directamente en su título. +1 por cierto.
ameba dice Reinstate Monica
2
Un ejemplo simple de cómo MANOVA puede ser beneficioso en comparación con los ANOVA: stats.stackexchange.com/questions/129123 . Una situación opuesta en la que MANOVA sigue siendo beneficiosa pero por una razón diferente: stats.stackexchange.com/questions/61921 . Entonces MANOVA puede: (i) dar más potencia, (ii) controlar la tasa de error general.
ameba dice Reinstate Monica

Respuestas:

22

¿Leíste el ejemplo completo en el sitio de UCLA que vinculaste?

Con respecto a 1: el
uso de un modelo multivariado le ayuda (formalmente, inferencialmente) a comparar coeficientes entre resultados.
En ese ejemplo vinculado, utilizan el modelo multivariado para probar si el writecoeficiente es significativamente diferente para el locus_of_controlresultado frente al self_conceptresultado. No soy psicólogo, pero presumiblemente es interesante preguntar si su habilidad para escribir afecta / predice dos variables psicológicas diferentes de la misma manera. (O, si no creemos lo nulo, sigue siendo interesante preguntar si ha recopilado suficientes datos para demostrar de manera convincente que los efectos realmente difieren).
Si realizara análisis univariados por separado, sería más difícil comparar elwritecoeficiente en los dos modelos. Ambas estimaciones provendrían del mismo conjunto de datos, por lo que estarían correlacionadas. El modelo multivariante explica esta correlación.

También, en relación 4:
No son algunos modelos multivariados muy comúnmente usados, tales como ANOVA de medidas repetidas . Con un diseño de estudio apropiado, imagine que administra cada uno de varios medicamentos a cada paciente y mide la salud de cada paciente después de cada medicamento. O imagine que mide el mismo resultado con el tiempo, como con los datos longitudinales, digamos las alturas de los niños con el tiempo. Entonces tiene múltiples resultados para cada unidad (incluso cuando solo son repeticiones del "mismo" tipo de medida). Probablemente querrá hacer al menos algunos contrastes simples: comparar los efectos del medicamento A versus el medicamento B, o los efectos promedio de los medicamentos A y B versus el placebo. Para esto, ANOVA de medidas repetidas es un modelo / análisis estadístico multivariante apropiado.

civilstat
fuente
1
Diste una gran respuesta. Definitivamente estaba consciente de que hay un mundo de otros ejemplos y argumentos que podrían hacerse. Me gusta que tomaste información del enlace de UCLA para mostrar el OP. Francamente, la pregunta me ofendió inicialmente, pero decidí dar una respuesta cuando me di cuenta de que el OP sinceramente quería buenos argumentos y no estaba impulsando la idea de ignorar los métodos multivariados. Mi elección fue mostrar ejemplos en los que ignorar la correlación tuviera resultados realmente devastadores y fatales.
Michael R. Chernick
1
Agradezco su respuesta y, con suerte, respuestas mejor pensadas que harán de este un hilo valioso.
Michael R. Chernick
Gracias por la gran respuesta, @civilstat. En el punto 1, si ejecutamos dos modelos univariados independientes, usted ha mencionado que el coeficiente de la variable de entrada ( writepor ejemplo, el coeficiente) estaría correlacionado y el modelo multivariante representa el mismo. Aquí es donde me gustaría obtener más comprensión. locus_of_control y self_concept se pueden fusionar en una sola medida usando análisis factorial u otras técnicas y la medida resultante se puede modelar, si hay una motivación adecuada. Si ambos miden dos psyc diferentes. fenómenos, ¿qué ganamos al modelarlos simultáneamente?
KarthikS
2
@ManuelFazio Vea la siguiente oración en el sitio de UCLA: "Entonces, ¿por qué realizar una regresión multivariada? Como mencionamos anteriormente, una de las ventajas de usar mvreg es que puede realizar pruebas de los coeficientes a través de las diferentes variables de resultado". Si ejecutara regresiones separadas, obtendría el mismo coeficiente y SE para cada resultado , pero no obtendría una estimación de la correlación entre los coeficientes entre los resultados . Necesitaría esta correlación si, por ejemplo, quisiera obtener un IC para la diferencia en los coeficientes de lectura para el resultado de motivación versus el resultado de autoconcepto.
civilstat
1
@civilstat Ah, lástima de mí, la suposición de independencia estaba tan arraigada en mi mente que no hizo clic incluso después de haber leído esa oración. Gracias por la explicación extendida!
zipzapboing
11

Piense en todas las conclusiones falsas y a veces peligrosas que provienen de la simple multiplicación de probabilidades, los eventos de pensamiento son independientes. Debido a todas las salvaguardas redundantes incorporadas, pusimos en nuestras plantas de energía nuclear expertos usando la suposición de independencia que nos dijeron que la posibilidad de un accidente nuclear mayor era infinitesimal. Pero como vimos en Three Mile Island, los humanos cometen errores correlacionados, especialmente cuando están en pánico debido a un error inicial que rápidamente puede agravarse. Puede ser difícil construir un modelo multivariado realista que caracterice el comportamiento humano, pero darse cuenta del efecto de un modelo horrible (errores independientes) es claro.

Hay muchos otros ejemplos posibles. Tomaré el desastre del Shuttle Challenger como otro ejemplo posible. La pregunta era si lanzar o no en condiciones de baja temperatura. Hubo algunos datos que sugieren que las juntas tóricas podrían fallar a bajas temperaturas. Pero no había muchos datos de las misiones aprobadas para dejar en claro qué tan alto era el riesgo. La NASA siempre se ha preocupado por la seguridad de los astronautas y muchas redundancias se diseñaron en la nave espacial y lanzaron vehículos para hacer que las misiones sean seguras.

Sin embargo, antes de 1986 hubo algunas fallas del sistema y casi fallas probablemente debido a que no se identificaron todos los modos de falla posibles (una tarea difícil). El modelado de confiabilidad es un negocio difícil. Pero esa es otra historia. En el caso del transbordador, el fabricante de las juntas tóricas (Morton Thiokol) había realizado algunas pruebas de las juntas tóricas que indicaban la posibilidad de falla a baja temperatura.

Pero los datos sobre un número limitado de misiones mostraron cierta relación entre la temperatura y la falla, pero debido a que la redundancia llevó a algunos administradores a pensar que no ocurrirían múltiples fallas en las juntas tóricas, presionaron a la NASA para que la lanzara.

Por supuesto, hubo muchos otros factores que llevaron a la decisión. Recuerde que el presidente Reagan estaba tan ansioso por poner a un maestro en el espacio para demostrar que ahora era lo suficientemente seguro como para que las personas comunes que no eran astronautas pudieran viajar con seguridad en el transbordador. Entonces, la presión política fue otro factor importante que afectó la decisión. En este caso, con suficientes datos y un modelo multivariante, el riesgo podría haberse demostrado mejor. La NASA solía tratar de errar por precaución. En este caso, posponer el lanzamiento durante unos días hasta que el clima en Florida hubiera sido prudente.

Las comisiones posteriores al desastre, los ingenieros, los científicos y los estadísticos hicieron una gran cantidad de análisis y se publicaron documentos. Sus puntos de vista pueden diferir de los míos. Edward Tufte demostró en una de sus series de libros sobre gráficos que los buenos gráficos podrían haber sido más convincentes. Pero al final, aunque todos estos análisis tienen mérito, creo que la política aún habría ganado.

La moraleja de estas historias no es que estos desastres motivaron el uso de métodos multivariados, sino que los análisis deficientes que ignoraron la dependencia a veces conducen a una gran subestimación del riesgo. Esto puede conducir a un exceso de confianza que puede ser peligroso. Como jwimberley señaló en el primer comentario de este hilo "Los modelos univariados separados ignoran las correlaciones".

Michael R. Chernick
fuente
Gracias por tu maravilloso ejemplo, @MichaelChernick. El supuesto de independencia es motivo de preocupación, entiendo. Tengo más curiosidad por la interrelación entre los resultados y la necesidad de modelarlos simultáneamente.
KarthikS
Tomemos el ejemplo del desastre del transbordador Challenger en sí. Aquí el resultado univariado es binario, ya sea seguro o no lanzar el transbordador espacial. Considere que el modelo intenta hacer muchas cosas, como predecir la seguridad, medir las desviaciones de trayectoria y predecir la presión interior para el transbordador. Un enfoque podría ser construir modelos separados para cada uno de ellos, y el otro podría ser considerar un modelo único que no solo intente capturar los efectos de los insumos (temperatura, humedad, etc.), sino que también verifique la simultaneidad efectos sobre los resultados.
KarthikS
1
Gracias @MichaelChernick. No estoy seguro de entender sus argumentos por completo. Entiendo que muchos de nosotros usamos la regresión univariada y multivariada para la regresión lineal simple con una sola entrada y más de una variable de entrada (en cuyo caso se examinan los efectos simultáneos de más de una entrada). Pero he enmarcado esta pregunta para modelos con un resultado (univariante) o más de un resultado (multivariado). Si el caso Challenger no alude a un caso de uso de resultados multivariados, ¿puede aludir a uno válido? Gracias por continuar la discusión.
KarthikS
Me sorprende que hayas recompensado esta pregunta. Las recompensas se realizan con mayor frecuencia cuando no ha recibido muchos comentarios y si contiene respuestas, no cubren algunos aspectos importantes de las preguntas. Este hilo ha tenido tres buenas respuestas y toneladas de comentarios (muy buenos también como el primero de jwimberley.)
Michael R. Chernick
No estoy seguro de qué más quieres. La pregunta es muy amplia y parece ser más una discusión que técnica. Casi me parece que estás tratando de hacer que alguien diga que el análisis univariado solo está bien en situaciones complejas. No voy a intentar obtener la recompensa y será interesante ver en los próximos siete días que alguien lo intente y si lo hacen, lo aceptarán. El desastre del Challenger puede verse como un resultado univariante, pero no creo que por ningún motivo de imaginación se pueda responder a fondo solo con métodos univariados.
Michael R. Chernick
7

Considere esta cita de la p. 36 del libro de Darcy Olsen El derecho a probar [1]:

Pero unas dieciséis semanas después de que comenzaron las infusiones [eteplirsen], Jenn comenzó a notar cambios en [su hijo] Max. "El niño dejó de querer usar su silla de ruedas", dice ella. Unas semanas más tarde, estaba pidiendo jugar afuera, algo que no había hecho en años. Entonces Max comenzó a recuperar sus habilidades motoras finas. Pudo abrir los contenedores nuevamente, una habilidad que había perdido a medida que su [distrofia muscular de Duchenne] había progresado.

La madre de Max, Jenn, está construyendo una imagen coherente de su mejora, al reunir evidencia de múltiples resultados que individualmente podrían descartarse como 'ruido', pero que en conjunto son bastante convincentes. (Este principio de síntesis de evidencia es parte de la razón por la cual, por regla general, los pediatras nunca descartan las inferencias instintivas de un padre de que "algo está mal con mi hijo". Los padres tienen acceso a un "análisis longitudinal multivariado" de sus hijos mucho más rico que el "oligovariante" análisis transversal accesible para un médico durante un encuentro clínico breve y único.)

Para abstraerse del caso particular de eteplirsen, considere una situación hipotética en la que solo una pequeña fracción de los sujetos de estudio se beneficiaban de una terapia experimental, digamos debido a algún factor genético compartido que la ciencia aún no conoce. Es muy posible que para esos pocos sujetos, un argumento estadístico correspondiente a la historia multivariante de Jenn pueda identificarlos claramente como 'respondedores', mientras que múltiples análisis separados de las señales débiles contenidas en los resultados individuales producirían cada unopags>0,05

Lograr tal síntesis de evidencia es la razón fundamental para el análisis de resultados multivariados en ensayos clínicos. Métodos estadísticos en la investigación médica tuvo un problema especial hace unos años [2] dedicado a 'Modelado conjunto' de resultados multivariados.

  1. Olsen, Darcy. El derecho a probar: cómo el gobierno federal evita que los estadounidenses reciban los tratamientos que les salvan la vida que necesitan. Primera edición. Nueva York, NY: Harper, una impresión de HarperCollins Publishers, 2015.
  2. Rizopoulos, Dimitris y Emmanuel Lesaffre. "Introducción al número especial sobre técnicas de modelado de articulaciones". Métodos estadísticos en la investigación médica 23, no. 1 (1 de febrero de 2014): 3–10. doi: 10.1177 / 0962280212445800.
David C. Norris
fuente
6

Hagamos una analogía simple, ya que eso es todo lo que realmente puedo intentar aportar. En lugar de la regresión univariada versus la regresión multivariada, consideremos las distribuciones univariadas (marginales) versus multivariadas (conjuntas). Digamos que tengo los siguientes datos y quiero encontrar "valores atípicos". Como primer enfoque, podría usar las dos distribuciones marginales ("univariadas") y dibujar líneas en el 2.5% inferior y el 2.5% superior de cada uno independientemente. Los puntos que caen fuera de las líneas resultantes se consideran valores atípicos.

Pero dos cosas: 1) ¿qué pensamos de los puntos que están fuera de las líneas para un eje pero dentro de las líneas para el otro eje? ¿Son "valores atípicos parciales" o algo así? Y 2) el cuadro resultante no parece que realmente esté haciendo lo que queremos. La razón es, por supuesto, que las dos variables están correlacionadas, y lo que intuitivamente queremos es encontrar valores atípicos que sean inusuales considerando las variables en combinación.

En este caso, observamos la distribución conjunta, y he codificado por colores los puntos según si su distancia de Mahalanobis desde el centro está dentro del 5% superior o no. Los puntos negros se parecen mucho más a los valores atípicos, aunque algunos valores atípicos se encuentran dentro de ambos conjuntos de líneas verdes y algunos no atípicos (rojos) se encuentran fuera de ambos conjuntos de líneas verdes.

En ambos casos, estamos delimitando el 95% frente al 5%, pero la segunda técnica explica la distribución conjunta. Creo que la regresión multivariada es así, donde sustituyes "regresión" por "distribución". No lo entiendo totalmente, y no he tenido necesidad (por lo que entiendo) de hacer una regresión multivariante, pero así es como lo pienso.

[La analogía tiene problemas: la distancia de Mahalanobis reduce dos variables a un solo número, algo así como la forma en que una regresión univariada toma un conjunto de variables independientes y puede, con las técnicas correctas, tener en cuenta las covarianzas entre las variables independientes y los resultados en una sola variable dependiente, mientras que una regresión multivariada da como resultado múltiples variables dependientes. Entonces, es algo al revés, pero con suerte lo suficiente como para dar algo de intuición.]

ingrese la descripción de la imagen aquí

Wayne
fuente
1
Me gusta esto. Usaría las elipses externas para definir los valores atípicos. Como veo en su ilustración, un punto puede estar lejos de la media en la dirección x o y, pero aún así estar dentro de una elipse que no está lejos de la línea de regresión.
Michael R. Chernick
3

1) La naturaleza no siempre es simple. De hecho, la mayoría de los fenómenos (resultados) que estudiamos dependen de múltiples variables y de manera compleja. Un modelo inferencial basado en una variable a la vez probablemente tendrá un alto sesgo.

2) Los modelos univariados son el modelo más simple que puede construir, por definición. Está bien si está investigando un problema por primera vez y desea comprender su característica única y más esencial. Pero si desea una comprensión más profunda de la misma, una comprensión que realmente puede aprovechar porque confía en lo que está haciendo, utilizaría análisis multivariados. Y entre los multivariados, debe preferir los que entienden los patrones de correlación, si le importa la precisión del modelo.

3) Lo siento, no hay tiempo para leer este.

4) Los documentos que utilizan técnicas multivariadas son muy comunes en estos días, incluso extremadamente comunes en algunos campos. En los experimentos del CERN que utilizan los datos del Gran Colisionador de Hadrones (para tomar un ejemplo de la física de partículas), más de la mitad de los cientos de artículos publicados cada año utilizan técnicas multivariadas de una forma u otra.

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0

famargar
fuente
Creo que quiere decir que el modelo univariado es uno con solo entrada y el modelo multivariado es con múltiples entradas. Mi pregunta fue sobre múltiples resultados analizados simultáneamente en un modelo.
KarthikS
1
Combinó regresión multivariada / univariada con regresión múltiple / simple.
Firebug
1

Mi respuesta depende de lo que quieras hacer con la regresión. Si está tratando de comparar el efecto de diferentes coeficientes, entonces la regresión puede no ser la herramienta adecuada para usted. Si está tratando de hacer predicciones usando diferentes coeficientes que ha demostrado que son independientes, entonces tal vez debería usar regresión múltiple.

¿Están correlacionados los factores? Si es así, una regresión multivariada puede darle un mal modelo y debe usar un método como VIF o regresión de cresta para recortar las correlaciones cruzadas. No debe comparar los coeficientes hasta que se eliminen los factores de correlación cruzada. Hacerlo conducirá al desastre. Si no están correlacionados, entonces los coeficientes multivariados deberían ser tan comparables como los coeficientes univariados, y esto no debería sorprender.

El resultado también puede depender del paquete de software que esté utilizando. No estoy bromeando. Los diferentes paquetes de software tienen diferentes métodos para calcular la regresión multivariada. (¿No me crees? Mira cómo el paquete estándar de regresión R calcula R 2 con y sin forzar el origen como la intercepción. Su mandíbula debe tocar el piso). Debe comprender cómo el paquete de software está realizando la regresión. ¿Cómo está compensando las correlaciones cruzadas? ¿Está realizando una solución secuencial o matricial? He tenido frustraciones con esto en el pasado. Sugiero realizar su regresión múltiple en diferentes paquetes de software y ver qué obtiene.

Otro buen ejemplo aquí:

Tenga en cuenta que en esta ecuación, los coeficientes de regresión (o coeficientes B) representan las contribuciones independientes de cada variable independiente a la predicción de la variable dependiente. Otra forma de expresar este hecho es decir que, por ejemplo, la variable X1 está correlacionada con la variable Y, después de controlar todas las demás variables independientes. Este tipo de correlación también se conoce como correlación parcial (este término fue utilizado por primera vez por Yule, 1907). Quizás el siguiente ejemplo aclare este problema. Probablemente encuentre una correlación negativa significativa entre la longitud y la altura del cabello en la población (es decir, las personas bajas tienen el cabello más largo). Al principio esto puede parecer extraño; sin embargo, si tuviéramos que agregar la variable Género a la ecuación de regresión múltiple, esta correlación probablemente desaparecería. Esto se debe a que las mujeres, en promedio, tienen el cabello más largo que los hombres; También son más cortos en promedio que los hombres. Por lo tanto, después de eliminar esta diferencia de género al ingresar el género en la ecuación, la relación entre la longitud y la altura del cabello desaparece porque la longitud del cabello no hace una contribución única a la predicción de la altura, más allá de lo que comparte en la predicción con la variable género . Dicho de otra manera, después de controlar la variable Sexo, la correlación parcial entre la longitud y la altura del cabello es cero. la relación entre la longitud y la altura del cabello desaparece porque la longitud del cabello no hace una contribución única a la predicción de la altura, más allá de lo que comparte en la predicción con el género variable. Dicho de otra manera, después de controlar la variable Sexo, la correlación parcial entre la longitud y la altura del cabello es cero. la relación entre la longitud y la altura del cabello desaparece porque la longitud del cabello no hace una contribución única a la predicción de la altura, más allá de lo que comparte en la predicción con el género variable. Dicho de otra manera, después de controlar la variable Sexo, la correlación parcial entre la longitud y la altura del cabello es cero. http://www.statsoft.com/Textbook/Multiple-Regression

Hay tantas dificultades al usar la regresión múltiple que trato de evitar usarla. Si fuera a usarlo, tenga mucho cuidado con los resultados y vuelva a verificarlos. Siempre debe trazar los datos visualmente para verificar la correlación. (Solo porque su programa de software dijo que no había correlación, no significa que no haya una. Correlaciones interesantes ) Siempre verifique sus resultados contra el sentido común. Si un factor muestra una fuerte correlación en una regresión univariante, pero ninguno en multivariante, debe comprender por qué antes de compartir los resultados (el factor de género anterior es un buen ejemplo).

Maddenker
fuente
" Vea cómo el paquete de regresión R estándar calcula R2 con y sin forzar el origen como la intercepción " . Si bien es potencialmente confuso para aquellos que no lo esperan, lo que R hace en esa situación es el enfoque estándar que se implementa literalmente en cada software de estadísticas paquete donde he comprobado esto.
Jake Westfall
Interesante. He visto artículos publicados de analistas que no entendieron esta diferencia. ¿Has visto una buena discusión en línea sobre el tema? ¿Debo enviar una nueva pregunta a CV sobre ella?
Maddenker