Diferencia entre la regresión PLS y el modelado de ruta PLS. Crítica de PLS

11

Esta pregunta se hizo aquí, pero nadie dio una buena respuesta. Así que creo que es una buena idea mencionarlo nuevamente y también me gustaría agregar algunos comentarios / preguntas más.

  • La primera pregunta es ¿cuál es la diferencia entre "modelado de ruta PLS" y "regresión PLS"? Para hacerlo más general, ¿qué son el modelado de ecuaciones estructurales (SEM), el modelado de caminos y la regresión? Según tengo entendido, la regresión se enfoca más en la predicción, mientras que el enfoque SEM está en la relación entre la respuesta y los predictores y el modelado de ruta es un caso especial de SEM.

  • Mi segunda pregunta es ¿qué tan confiable es PLS? Recientemente ha sido objeto de muchas críticas como se destaca en Rönkkö et al. 2016 y Rönkkö et al. 2015, lo que lleva al rechazo de trabajos basados ​​en PLS en revistas de alto nivel como Journal of Operations Management ( aquí está la nota del editor de la revista):

    Estamos rechazando prácticamente todos los manuscritos basados ​​en PLS, porque hemos concluido que PLS ha sido, sin excepción, el enfoque de modelado incorrecto en los tipos de modelos que utilizan los investigadores de OM .

    Debo señalar que mi campo es la espectroscopia, ni la gestión / psicología ni las estadísticas. En los artículos vinculados anteriormente, los autores hablan más sobre PLS como método SEM, pero para mí, su crítica parece aplicable también a la regresión de PLS.

Ress
fuente
Sus enlaces están todos detrás de los muros de pago.
Jeremy Miles
¡tienes toda la razón! y lo siento, tengo los archivos PDF pero no estoy seguro de poder cargarlos o compartirlos. La ciencia debería ser gratis :)
Ress
La regresión de PLS se explica y analiza con bastante detalle en stats.stackexchange.com/questions/179733 . Lamentablemente, no sé casi nada sobre "modelado de ruta".
ameba
Creo que "modelado de ruta" es solo otro nombre para SEM
rep_ho
Del documento de 2016: "La mayoría de los textos introductorios sobre PLS pasan por alto los propósitos de los pesos, argumentando que PLS es SEM y, por lo tanto, debe proporcionar una ventaja sobre la regresión con compuestos (por ejemplo, Gefen et al., 2011); sin embargo, tales trabajos a menudo no señalan explícitamente que PLS en sí mismo también es simplemente una regresión con compuestos ". es engañosa. El objetivo principal del argumento puedo ver si los autores afirman que SEM debe ser una construcción teórica pura y que desdeñan las ecuaciones estructurales derivadas empíricamente. Pero PLS deriva ecuaciones 'estructuradas' derivadas a través de la covarianza.
ReneBt

Respuestas:

8

La primera pregunta es ¿cuál es la diferencia entre "modelado de ruta PLS" y "regresión PLS"?

Ninguno, son sinónimos.

Para hacerlo más general, ¿qué son el modelado de ecuaciones estructurales (SEM), el modelado de caminos y la regresión? Según tengo entendido, la regresión se enfoca más en la predicción, mientras que el enfoque SEM está en la relación entre la respuesta y los predictores y el modelado de ruta es un caso especial de SEM.

SEM es una forma de regresión. La regresión es cualquier método que correlaciona variables independientes y dependientes e incluye métodos que usan múltiples variables manejadas como entidades separadas. SEM usa específicamente relaciones matemáticas entre las variables para restringir el modelo final, en el caso de PLS esta es la covarianza. Entiendo que el modelado de ruta es un término específico de dominio (no mío, soy un espectroscopista como usted).

Mi segunda pregunta es ¿qué tan confiable es PLS? Recientemente ha sido objeto de muchas críticas como se destaca en Rönkkö et al. 2016 y Rönkkö et al. 2015

Se encuentra una excelente refutación en Henseler et al. 2013 Creencias comunes y realidad sobre PLS . Una preocupación principal para Rönkkö et al. es que PLS no funcionó muy bien en algunas situaciones que suponen un factor latente común. De hecho, PLS está diseñado para manejar múltiples factores latentes, una situación que es mucho más común en el mundo real.

¿Qué tan confiable? Para la espectroscopía es una herramienta excelente pero tiene sus limitaciones. Corre el riesgo de sobreajustar, ya que puede construir modelos complejos que capturan contribuciones de múltiples factores subyacentes. Por esta razón, debe usarse con cuidado y la validación externa adecuada es esencial, pero estas advertencias se aplican a todas las herramientas de construcción de modelos. Trabajo principalmente en conjuntos de datos del mundo real durante 2 décadas y no he encontrado ningún conjunto de datos experimental que tenga solo un factor común que respalde la variable dependiente (ni basada en datos ni en teoría científica).

ReneBt
fuente
1
+1 aunque desearía que esta respuesta tuviera más detalles sobre Ronkko et al. vs Henseler y col. desacuerdo. No soy en absoluto un espectroscopista, pero tengo una comprensión relativamente buena de PLS como método de regularización para la regresión lineal (así es como se presenta en The Elements of Statistical Learning de Hastie et al.). Creo que se llama PLS1 en quimiometría. Aquí el "rendimiento" se relaciona con el error de reconstrucción, se puede usar la validación cruzada para elegir la intensidad de la regularización, etc. Esta es una configuración muy familiar para cualquiera que haya encontrado regresión de crestas o PCR o algo así.
ameba
[cont.] También conozco PLS2 con múltiples variables dependientes, pero no estoy seguro de con qué frecuencia se usa. Al mismo tiempo, al tratar de entender lo que Ronkko et al. Es decir, parece que el enfoque de "SEM" está exclusivamente en relacionar X múltiple con Y múltiple (¿es PLS2 entonces?) y quizás más en interpretar la relación entre X e Y en lugar de la predicción de Y como tal. Ni siquiera estoy seguro de qué quieren decir con "rendimiento", y no tengo idea de qué prefieren usar en lugar de PLS cuando critican a PLS.
ameba
Gracias tanto ReneBT como ameba. Publiqué esta pregunta en Reddit aquí y alguien (soumya_ray) respondió que la regresión y SEM son fundamentalmente diferentes. Ella no explicó las diferencias técnicas. Por cierto, su respuesta está en contra de lo que dijiste (tu respuesta tiene sentido para mí).
Ress
Por cierto, hago selección de banda usando PLS. Confirmo su punto sobre el rendimiento de PLS, aunque puede dar lugar a buenas predicciones (tanto en la prueba como en la calibración), pero el modelo puede ser fundamentalmente incorrecto o al menos muy difícil de interpretar, ya que selecciona predictores como variables importantes que no tienen nada que ver con variable de respuesta.
Ress
Un comentario adicional sobre los temas clave planteados por los autores es "El algoritmo PLS produce pesos que aumentan la correlación entre los compuestos adyacentes en comparación con los compuestos ponderados por unidad utilizados como punto de partida mediante el uso de cualquier correlación en los datos, pero esto sí no garantiza el logro de ningún óptimo global ". Es una preocupación válida, en pocas palabras, lo que significa es que el modelo solo se aplicará a las poblaciones con la misma estructura de covarianza subyacente, esto no invalida a PLS, sino que significa que uno debe construir y usar un modelo con cuidado.
ReneBt