Acabo de leer este maravilloso libro: Análisis estadístico multivariado aplicado por Johnson y Wichern . La ironía es que todavía no puedo entender la motivación para usar modelos multivariados (regresión) en lugar de modelos univariados (regresión) separados. Revisé las publicaciones stats.statexchange 1 y 2 que explican (a) la diferencia entre la regresión múltiple y multivariada y (b) la interpretación de los resultados de la regresión multivariada, pero no puedo modificar el uso de modelos estadísticos multivariados de toda la información I conéctese en línea sobre ellos.
Mis preguntas son:
- ¿Por qué necesitamos regresión multivariante? ¿Cuál es la ventaja de considerar los resultados de forma simultánea en lugar de individualmente, para sacar inferencias?
- Cuándo usar modelos multivariados y cuándo usar múltiples modelos univariados (para múltiples resultados).
- Tome un ejemplo dado en el sitio de UCLA con tres resultados: locus de control, autoconcepto y motivación. Con respecto a 1. y 2., ¿podemos comparar el análisis cuando hacemos tres regresiones múltiples univariadas versus una regresión múltiple multivariada? ¿Cómo justificar uno sobre otro?
- No he encontrado muchos trabajos académicos que utilicen modelos estadísticos multivariados. ¿Esto se debe a la suposición de normalidad multivariada, la complejidad del ajuste / interpretación del modelo o alguna otra razón específica?
Respuestas:
¿Leíste el ejemplo completo en el sitio de UCLA que vinculaste?
Con respecto a 1: el
uso de un modelo multivariado le ayuda (formalmente, inferencialmente) a comparar coeficientes entre resultados.
En ese ejemplo vinculado, utilizan el modelo multivariado para probar si el
write
coeficiente es significativamente diferente para ellocus_of_control
resultado frente alself_concept
resultado. No soy psicólogo, pero presumiblemente es interesante preguntar si su habilidad para escribir afecta / predice dos variables psicológicas diferentes de la misma manera. (O, si no creemos lo nulo, sigue siendo interesante preguntar si ha recopilado suficientes datos para demostrar de manera convincente que los efectos realmente difieren).Si realizara análisis univariados por separado, sería más difícil comparar el
write
coeficiente en los dos modelos. Ambas estimaciones provendrían del mismo conjunto de datos, por lo que estarían correlacionadas. El modelo multivariante explica esta correlación.También, en relación 4:
No son algunos modelos multivariados muy comúnmente usados, tales como ANOVA de medidas repetidas . Con un diseño de estudio apropiado, imagine que administra cada uno de varios medicamentos a cada paciente y mide la salud de cada paciente después de cada medicamento. O imagine que mide el mismo resultado con el tiempo, como con los datos longitudinales, digamos las alturas de los niños con el tiempo. Entonces tiene múltiples resultados para cada unidad (incluso cuando solo son repeticiones del "mismo" tipo de medida). Probablemente querrá hacer al menos algunos contrastes simples: comparar los efectos del medicamento A versus el medicamento B, o los efectos promedio de los medicamentos A y B versus el placebo. Para esto, ANOVA de medidas repetidas es un modelo / análisis estadístico multivariante apropiado.
fuente
write
por ejemplo, el coeficiente) estaría correlacionado y el modelo multivariante representa el mismo. Aquí es donde me gustaría obtener más comprensión. locus_of_control y self_concept se pueden fusionar en una sola medida usando análisis factorial u otras técnicas y la medida resultante se puede modelar, si hay una motivación adecuada. Si ambos miden dos psyc diferentes. fenómenos, ¿qué ganamos al modelarlos simultáneamente?Piense en todas las conclusiones falsas y a veces peligrosas que provienen de la simple multiplicación de probabilidades, los eventos de pensamiento son independientes. Debido a todas las salvaguardas redundantes incorporadas, pusimos en nuestras plantas de energía nuclear expertos usando la suposición de independencia que nos dijeron que la posibilidad de un accidente nuclear mayor era infinitesimal. Pero como vimos en Three Mile Island, los humanos cometen errores correlacionados, especialmente cuando están en pánico debido a un error inicial que rápidamente puede agravarse. Puede ser difícil construir un modelo multivariado realista que caracterice el comportamiento humano, pero darse cuenta del efecto de un modelo horrible (errores independientes) es claro.
Hay muchos otros ejemplos posibles. Tomaré el desastre del Shuttle Challenger como otro ejemplo posible. La pregunta era si lanzar o no en condiciones de baja temperatura. Hubo algunos datos que sugieren que las juntas tóricas podrían fallar a bajas temperaturas. Pero no había muchos datos de las misiones aprobadas para dejar en claro qué tan alto era el riesgo. La NASA siempre se ha preocupado por la seguridad de los astronautas y muchas redundancias se diseñaron en la nave espacial y lanzaron vehículos para hacer que las misiones sean seguras.
Sin embargo, antes de 1986 hubo algunas fallas del sistema y casi fallas probablemente debido a que no se identificaron todos los modos de falla posibles (una tarea difícil). El modelado de confiabilidad es un negocio difícil. Pero esa es otra historia. En el caso del transbordador, el fabricante de las juntas tóricas (Morton Thiokol) había realizado algunas pruebas de las juntas tóricas que indicaban la posibilidad de falla a baja temperatura.
Pero los datos sobre un número limitado de misiones mostraron cierta relación entre la temperatura y la falla, pero debido a que la redundancia llevó a algunos administradores a pensar que no ocurrirían múltiples fallas en las juntas tóricas, presionaron a la NASA para que la lanzara.
Por supuesto, hubo muchos otros factores que llevaron a la decisión. Recuerde que el presidente Reagan estaba tan ansioso por poner a un maestro en el espacio para demostrar que ahora era lo suficientemente seguro como para que las personas comunes que no eran astronautas pudieran viajar con seguridad en el transbordador. Entonces, la presión política fue otro factor importante que afectó la decisión. En este caso, con suficientes datos y un modelo multivariante, el riesgo podría haberse demostrado mejor. La NASA solía tratar de errar por precaución. En este caso, posponer el lanzamiento durante unos días hasta que el clima en Florida hubiera sido prudente.
Las comisiones posteriores al desastre, los ingenieros, los científicos y los estadísticos hicieron una gran cantidad de análisis y se publicaron documentos. Sus puntos de vista pueden diferir de los míos. Edward Tufte demostró en una de sus series de libros sobre gráficos que los buenos gráficos podrían haber sido más convincentes. Pero al final, aunque todos estos análisis tienen mérito, creo que la política aún habría ganado.
La moraleja de estas historias no es que estos desastres motivaron el uso de métodos multivariados, sino que los análisis deficientes que ignoraron la dependencia a veces conducen a una gran subestimación del riesgo. Esto puede conducir a un exceso de confianza que puede ser peligroso. Como jwimberley señaló en el primer comentario de este hilo "Los modelos univariados separados ignoran las correlaciones".
fuente
Considere esta cita de la p. 36 del libro de Darcy Olsen El derecho a probar [1]:
La madre de Max, Jenn, está construyendo una imagen coherente de su mejora, al reunir evidencia de múltiples resultados que individualmente podrían descartarse como 'ruido', pero que en conjunto son bastante convincentes. (Este principio de síntesis de evidencia es parte de la razón por la cual, por regla general, los pediatras nunca descartan las inferencias instintivas de un padre de que "algo está mal con mi hijo". Los padres tienen acceso a un "análisis longitudinal multivariado" de sus hijos mucho más rico que el "oligovariante" análisis transversal accesible para un médico durante un encuentro clínico breve y único.)
Para abstraerse del caso particular de eteplirsen, considere una situación hipotética en la que solo una pequeña fracción de los sujetos de estudio se beneficiaban de una terapia experimental, digamos debido a algún factor genético compartido que la ciencia aún no conoce. Es muy posible que para esos pocos sujetos, un argumento estadístico correspondiente a la historia multivariante de Jenn pueda identificarlos claramente como 'respondedores', mientras que múltiples análisis separados de las señales débiles contenidas en los resultados individuales producirían cada unop > 0.05
Lograr tal síntesis de evidencia es la razón fundamental para el análisis de resultados multivariados en ensayos clínicos. Métodos estadísticos en la investigación médica tuvo un problema especial hace unos años [2] dedicado a 'Modelado conjunto' de resultados multivariados.
fuente
Hagamos una analogía simple, ya que eso es todo lo que realmente puedo intentar aportar. En lugar de la regresión univariada versus la regresión multivariada, consideremos las distribuciones univariadas (marginales) versus multivariadas (conjuntas). Digamos que tengo los siguientes datos y quiero encontrar "valores atípicos". Como primer enfoque, podría usar las dos distribuciones marginales ("univariadas") y dibujar líneas en el 2.5% inferior y el 2.5% superior de cada uno independientemente. Los puntos que caen fuera de las líneas resultantes se consideran valores atípicos.
Pero dos cosas: 1) ¿qué pensamos de los puntos que están fuera de las líneas para un eje pero dentro de las líneas para el otro eje? ¿Son "valores atípicos parciales" o algo así? Y 2) el cuadro resultante no parece que realmente esté haciendo lo que queremos. La razón es, por supuesto, que las dos variables están correlacionadas, y lo que intuitivamente queremos es encontrar valores atípicos que sean inusuales considerando las variables en combinación.
En este caso, observamos la distribución conjunta, y he codificado por colores los puntos según si su distancia de Mahalanobis desde el centro está dentro del 5% superior o no. Los puntos negros se parecen mucho más a los valores atípicos, aunque algunos valores atípicos se encuentran dentro de ambos conjuntos de líneas verdes y algunos no atípicos (rojos) se encuentran fuera de ambos conjuntos de líneas verdes.
En ambos casos, estamos delimitando el 95% frente al 5%, pero la segunda técnica explica la distribución conjunta. Creo que la regresión multivariada es así, donde sustituyes "regresión" por "distribución". No lo entiendo totalmente, y no he tenido necesidad (por lo que entiendo) de hacer una regresión multivariante, pero así es como lo pienso.
[La analogía tiene problemas: la distancia de Mahalanobis reduce dos variables a un solo número, algo así como la forma en que una regresión univariada toma un conjunto de variables independientes y puede, con las técnicas correctas, tener en cuenta las covarianzas entre las variables independientes y los resultados en una sola variable dependiente, mientras que una regresión multivariada da como resultado múltiples variables dependientes. Entonces, es algo al revés, pero con suerte lo suficiente como para dar algo de intuición.]
fuente
1) La naturaleza no siempre es simple. De hecho, la mayoría de los fenómenos (resultados) que estudiamos dependen de múltiples variables y de manera compleja. Un modelo inferencial basado en una variable a la vez probablemente tendrá un alto sesgo.
2) Los modelos univariados son el modelo más simple que puede construir, por definición. Está bien si está investigando un problema por primera vez y desea comprender su característica única y más esencial. Pero si desea una comprensión más profunda de la misma, una comprensión que realmente puede aprovechar porque confía en lo que está haciendo, utilizaría análisis multivariados. Y entre los multivariados, debe preferir los que entienden los patrones de correlación, si le importa la precisión del modelo.
3) Lo siento, no hay tiempo para leer este.
4) Los documentos que utilizan técnicas multivariadas son muy comunes en estos días, incluso extremadamente comunes en algunos campos. En los experimentos del CERN que utilizan los datos del Gran Colisionador de Hadrones (para tomar un ejemplo de la física de partículas), más de la mitad de los cientos de artículos publicados cada año utilizan técnicas multivariadas de una forma u otra.
https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0
fuente
Mi respuesta depende de lo que quieras hacer con la regresión. Si está tratando de comparar el efecto de diferentes coeficientes, entonces la regresión puede no ser la herramienta adecuada para usted. Si está tratando de hacer predicciones usando diferentes coeficientes que ha demostrado que son independientes, entonces tal vez debería usar regresión múltiple.
¿Están correlacionados los factores? Si es así, una regresión multivariada puede darle un mal modelo y debe usar un método como VIF o regresión de cresta para recortar las correlaciones cruzadas. No debe comparar los coeficientes hasta que se eliminen los factores de correlación cruzada. Hacerlo conducirá al desastre. Si no están correlacionados, entonces los coeficientes multivariados deberían ser tan comparables como los coeficientes univariados, y esto no debería sorprender.
El resultado también puede depender del paquete de software que esté utilizando. No estoy bromeando. Los diferentes paquetes de software tienen diferentes métodos para calcular la regresión multivariada. (¿No me crees? Mira cómo el paquete estándar de regresión R calcula R 2 con y sin forzar el origen como la intercepción. Su mandíbula debe tocar el piso). Debe comprender cómo el paquete de software está realizando la regresión. ¿Cómo está compensando las correlaciones cruzadas? ¿Está realizando una solución secuencial o matricial? He tenido frustraciones con esto en el pasado. Sugiero realizar su regresión múltiple en diferentes paquetes de software y ver qué obtiene.
Otro buen ejemplo aquí:
Hay tantas dificultades al usar la regresión múltiple que trato de evitar usarla. Si fuera a usarlo, tenga mucho cuidado con los resultados y vuelva a verificarlos. Siempre debe trazar los datos visualmente para verificar la correlación. (Solo porque su programa de software dijo que no había correlación, no significa que no haya una. Correlaciones interesantes ) Siempre verifique sus resultados contra el sentido común. Si un factor muestra una fuerte correlación en una regresión univariante, pero ninguno en multivariante, debe comprender por qué antes de compartir los resultados (el factor de género anterior es un buen ejemplo).
fuente