En abril, asistí a una charla en la serie de seminarios grupales de Estadística del Departamento de Matemáticas de la UMD llamada "¿Explicar o predecir?". La charla fue impartida por el profesor Galit Shmueli, que enseña en la Smith Business School de la UMD. Su charla se basó en una investigación que realizó para un artículo titulado "Modelado predictivo versus explicativo en la investigación de SI" , y un documento de trabajo de seguimiento titulado "¿Explicar o predecir?" .
El argumento del Dr. Shmueli es que los términos predictivo y explicativo en un contexto de modelado estadístico se han confundido, y que la literatura estadística carece de una discusión exhaustiva de las diferencias. En el documento, contrasta ambos y habla sobre sus implicaciones prácticas. Te animo a leer los periódicos.
Las preguntas que me gustaría plantear a la comunidad de profesionales son:
- ¿Cómo define un ejercicio predictivo versus uno explicativo / descriptivo? Sería útil si pudiera hablar sobre la aplicación específica.
- ¿Alguna vez has caído en la trampa de usar uno cuando quieres usar el otro? Ciertamente lo tengo. ¿Cómo sabes cuál usar?
fuente
Respuestas:
En una oración
El modelado predictivo se trata de "¿qué es probable que suceda?", Mientras que el modelado explicativo se trata de "¿qué podemos hacer al respecto?"
En muchas oraciones
Creo que la principal diferencia es lo que se pretende hacer con el análisis. Sugeriría que la explicación es mucho más importante para la intervención que la predicción. Si desea hacer algo para alterar un resultado, es mejor que busque explicar por qué es así. El modelado explicativo, si se hace bien, le dirá cómo intervenir (qué entrada debe ajustarse). Sin embargo, si simplemente desea comprender cómo será el futuro, sin ninguna intención (o capacidad) de intervenir, es más probable que el modelado predictivo sea apropiado.
Como un ejemplo increíblemente laxo, usando "datos de cáncer".
Sería apropiado (o al menos útil) el modelo predictivo utilizando "datos sobre el cáncer" si financiara las salas de cáncer de diferentes hospitales. Realmente no necesita explicar por qué las personas contraen cáncer, solo necesita una estimación precisa de la cantidad de servicios que se requerirán. El modelado explicativo probablemente no ayudaría mucho aquí. Por ejemplo, saber que fumar conduce a un mayor riesgo de cáncer no le dice por sí solo si debe otorgar más fondos para la sala A o la sala B.
El modelado explicativo de los "datos sobre el cáncer" sería apropiado si quisiera disminuir la tasa nacional de cáncer; el modelado predictivo sería bastante obsoleto aquí. Es poco probable que la capacidad de predecir con precisión las tasas de cáncer lo ayude a decidir cómo reducirlo. Sin embargo, saber que fumar conduce a un mayor riesgo de cáncer es información valiosa, porque si disminuye las tasas de tabaquismo (por ejemplo, al hacer que los cigarrillos sean más caros), esto lleva a más personas con menos riesgo, lo que (con suerte) conduce a una disminución esperada del cáncer tarifas.
Mirando el problema de esta manera, pensaría que el modelado explicativo se centraría principalmente en variables que están en control del usuario, ya sea directa o indirectamente. Es posible que sea necesario recopilar otras variables, pero si no puede cambiar ninguna de las variables en el análisis, dudo que el modelo explicativo sea útil, excepto tal vez para darle el deseo de obtener control o influencia sobre esas variables. que son importantes El modelo predictivo, en términos generales, solo busca asociaciones entre variables, controladas por el usuario o no. Solo necesita conocer las entradas / características / variables independientes / etc. para hacer una predicción, pero debe poder modificar o influir en las entradas / características / variables independientes / etc. para intervenir y cambiar un resultado .
fuente
En mi opinión, las diferencias son las siguientes:
Explicativo / descriptivo
Cuando buscamos una respuesta explicativa / descriptiva, el enfoque principal está en los datos que tenemos y buscamos descubrir las relaciones subyacentes entre los datos después de que se ha tenido en cuenta el ruido.
Ejemplo: ¿Es cierto que hacer ejercicio regularmente (digamos 30 minutos por día) conduce a una presión arterial más baja? Para responder a esta pregunta, podemos recopilar datos de los pacientes sobre su régimen de ejercicio y sus valores de presión arterial a lo largo del tiempo. El objetivo es ver si podemos explicar las variaciones en la presión arterial mediante variaciones en el régimen de ejercicio.
La presión arterial se ve afectada no solo por el ejercicio por una amplia variedad de otros factores, como la cantidad de sodio que come una persona, etc. Estos otros factores se considerarían ruido en el ejemplo anterior, ya que la atención se centra en descifrar la relación entre el régimen de ejercicio y presión sanguínea.
Predicción
Cuando hacemos un ejercicio predictivo, estamos extrapolando a lo desconocido usando las relaciones conocidas entre los datos que tenemos a mano. La relación conocida puede surgir de un análisis explicativo / descriptivo o alguna otra técnica.
Ejemplo: si hago ejercicio 1 hora por día, ¿en qué medida es probable que disminuya mi presión arterial? Para responder a esta pregunta, podemos utilizar una relación previamente descubierta entre la presión arterial y el régimen de ejercicio para realizar la predicción.
En el contexto anterior, el enfoque no está en la explicación, aunque un modelo explicativo puede ayudar con el proceso de predicción. También hay enfoques no explicativos (por ejemplo, redes neuronales) que son buenos para predecir lo desconocido sin necesariamente agregar a nuestro conocimiento la naturaleza de la relación subyacente entre las variables.
fuente
Una cuestión práctica que surge aquí es la selección variable en el modelado. Una variable puede ser una variable explicativa importante (p. Ej., Es estadísticamente significativa) pero puede no ser útil para fines predictivos (es decir, su inclusión en el modelo conduce a una peor precisión predictiva). Veo este error casi todos los días en artículos publicados.
Otra diferencia está en la distinción entre análisis de componentes principales y análisis factorial. La PCA se usa a menudo en la predicción, pero no es tan útil para la explicación. FA implica el paso adicional de rotación que se realiza para mejorar la interpretación (y, por lo tanto, la explicación). Hoy hay una buena publicación en el blog de Galit Shmueli sobre esto .
Actualización: surge un tercer caso en series de tiempo cuando una variable puede ser una variable explicativa importante pero simplemente no está disponible para el futuro. Por ejemplo, los préstamos hipotecarios pueden estar fuertemente relacionados con el PIB, pero eso no es muy útil para predecir futuros préstamos hipotecarios a menos que también tengamos buenas predicciones del PIB.
fuente
Aunque a algunas personas les resulta más fácil pensar en la distinción en términos del modelo / algoritmo utilizado (por ejemplo, redes neuronales = predictivo), ese es solo un aspecto particular de la distinción explicar / predecir. Aquí hay un mazo de diapositivas que uso en mi curso de minería de datos para enseñar la regresión lineal desde ambos ángulos. Incluso con la regresión lineal sola y con este pequeño ejemplo, surgen varios problemas que conducen a diferentes modelos de objetivos explicativos versus objetivos predictivos (elección de variables, selección de variables, medidas de rendimiento, etc.)
Galit
fuente
Ejemplo: Un ejemplo clásico que he visto es en el contexto de predecir el desempeño humano. La autoeficacia (es decir, el grado en que una persona piensa que puede realizar bien una tarea) es a menudo un fuerte predictor del desempeño de la tarea. Por lo tanto, si coloca la autoeficacia en una regresión múltiple junto con otras variables como la inteligencia y el grado de experiencia previa, a menudo encuentra que la autoeficacia es un fuerte predictor.
Esto ha llevado a algunos investigadores a sugerir que la autoeficacia provoca el desempeño de la tarea. Y que las intervenciones efectivas son aquellas que se enfocan en aumentar el sentido de autoeficacia de una persona.
Sin embargo, el modelo teórico alternativo considera la autoeficacia en gran medida como consecuencia del desempeño de la tarea. Es decir, si eres bueno, lo sabrás. En este marco, las intervenciones deberían centrarse en aumentar la competencia real y la competencia no percibida.
Por lo tanto, incluir una variable como la autoeficacia podría aumentar la predicción, pero suponiendo que adopte el modelo de autoeficacia como consecuencia, no debe incluirse como un predictor si el objetivo del modelo es dilucidar los procesos causales que influyen en el rendimiento.
Por supuesto, esto plantea la cuestión de cómo desarrollar y validar un modelo teórico causal. Esto se basa claramente en múltiples estudios, idealmente con alguna manipulación experimental y un argumento coherente sobre los procesos dinámicos.
Proximal versus distal : he visto problemas similares cuando los investigadores están interesados en los efectos de las causas distales y proximales. Las causas proximales tienden a predecir mejor que las causas distales. Sin embargo, el interés teórico puede ser comprender las formas en que operan las causas distales y proximales.
Problema de selección variable : Finalmente, un gran problema en la investigación en ciencias sociales es el problema de selección variable. En cualquier estudio, hay un número infinito de variables que podrían haberse medido pero que no se midieron. Por lo tanto, la interpretación de los modelos debe tener en cuenta las implicaciones de esto al hacer interpretaciones teóricas.
fuente
Modelado estadístico: dos culturas (2001) de L. Breiman es, quizás, el mejor artículo sobre este punto. Sus principales conclusiones (ver también las respuestas de otros estadísticos prominentes al final del documento) son las siguientes:
fuente
No he leído su trabajo más allá del resumen del artículo vinculado, pero tengo la sensación de que la distinción entre "explicación" y "predicción" debe desecharse y reemplazarse por la distinción entre los objetivos del profesional, que son " causal "o" predictivo ". En general, creo que "explicación" es una palabra tan vaga que no significa casi nada. Por ejemplo, ¿la Ley de Hooke es explicativa o predictiva? En el otro extremo del espectro, ¿son los sistemas de recomendación predictivamente precisos buenos modelos causales de calificaciones explícitas de ítems? Creo que todos compartimos la intuición de que el objetivo de la ciencia es la explicación, mientras que el objetivo de la tecnología es la predicción; y esta intuición de alguna manera se pierde teniendo en cuenta las herramientas que utilizamos, como los algoritmos de aprendizaje supervisado,
Habiendo dicho todo eso, tal vez la única palabra que aplicaría a un modelo es interpretable. Las regresiones son usualmente interpretables; Las redes neuronales con muchas capas a menudo no lo son. Creo que la gente a veces asume ingenuamente que un modelo que es interpretable está proporcionando información causal, mientras que los modelos no interpretables solo proporcionan información predictiva. Esta actitud me parece simplemente confusa.
fuente
Todavía no estoy claro cuál es la pregunta. Dicho esto, en mi opinión, la diferencia fundamental entre los modelos predictivos y explicativos es la diferencia en su enfoque.
Modelos explicativos
Por definición, los modelos explicativos tienen como objetivo principal el objetivo de explicar algo en el mundo real. En la mayoría de los casos, buscamos ofrecer explicaciones simples y limpias. Por simple quiero decir que preferimos la parsimonia (explique los fenómenos con el menor número de parámetros posible) y por limpio quiero decir que nos gustaría hacer declaraciones de la siguiente forma: "el efecto de cambiar por una unidad cambia por manteniendo todo lo demás constante ". Dados estos objetivos de explicaciones simples y claras, los modelos explicativos buscan penalizar los modelos complejos (utilizando criterios apropiados como AIC) y prefieren obtener variables independientes ortogonales (ya sea a través de experimentos controlados o mediante transformaciones de datos adecuadas).y βx y β
Modelos predictivos
El objetivo de los modelos predictivos es predecir algo. Por lo tanto, tienden a centrarse menos en la parsimonia o la simplicidad, pero más en su capacidad de predecir la variable dependiente.
Sin embargo, lo anterior es algo así como una distinción artificial, ya que los modelos explicativos se pueden utilizar para la predicción y, a veces, los modelos predictivos pueden explicar algo.
fuente
como ya han dicho otros, la distinción no tiene sentido, excepto en lo que respecta a los objetivos del investigador.
Brad Efron, uno de los comentaristas en el artículo The Two Cultures , hizo la siguiente observación (como se discutió en mi pregunta anterior ):
Ciertos campos (p. Ej., Medicina) le dan un gran peso al ajuste del modelo como proceso explicativo (la distribución, etc.), como un medio para comprender el proceso subyacente que genera los datos. Otros campos están menos preocupados por esto, y estarán contentos con un modelo de "caja negra" que tiene un éxito predictivo muy alto. Esto también puede abrirse camino en el proceso de construcción del modelo.
fuente
Con respeto, esta pregunta podría estar mejor enfocada. ¿Alguna vez la gente usó un término cuando el otro era más apropiado? Sí, por supuesto. A veces es lo suficientemente claro por el contexto, o no quieres ser pedante. A veces las personas son simplemente descuidadas o flojas en su terminología. Esto es cierto para muchas personas, y ciertamente no estoy mejor.
Lo que tiene valor potencial aquí (discutiendo la explicación frente a la predicción en CV), es aclarar la distinción entre los dos enfoques. En resumen, la distinción se centra en el papel de la causalidad.. Si desea comprender algunas dinámicas en el mundo y explicar por qué algo sucede de la manera en que sucede, debe identificar las relaciones causales entre las variables relevantes. Para predecir, puede ignorar la causalidad. Por ejemplo, puede predecir un efecto a partir del conocimiento sobre su causa; puede predecir la existencia de la causa a partir del conocimiento de que ocurrió el efecto; y puede predecir el nivel aproximado de un efecto al conocer otro efecto que es impulsado por la misma causa. ¿Por qué alguien querría poder hacer esto? Para aumentar su conocimiento de lo que podría suceder en el futuro, para que puedan planificar en consecuencia. Por ejemplo, una junta de libertad condicional puede querer predecir la probabilidad de que un convicto reincida en caso de libertad condicional. Sin embargo, esto no es suficiente para la explicación. Por supuesto, estimar la verdadera relación causal entre dos variables puede ser extremadamente difícil. Además, los modelos que capturan (lo que se piensa que son) las relaciones causales reales a menudo son peores para hacer predicciones. Entonces, ¿por qué hacerlo? Primero, la mayor parte de esto se hace en la ciencia, donde la comprensión se persigue por sí misma. En segundo lugar, si podemos identificar de manera confiable las causas verdaderas y desarrollar la capacidad de afectarlas, podemos ejercer cierta influencia sobre los efectos.
Con respecto a la estrategia de modelado estadístico, no hay una gran diferencia. Principalmente la diferencia radica en cómo llevar a cabo el estudio. Si su objetivo es poder predecir, averigüe qué información estará disponible para los usuarios del modelo cuando necesiten hacer la predicción. La información a la que no tendrán acceso no tiene valor. Si lo más probable es que quieran poder predecir en un cierto nivel (o dentro de un rango estrecho) de los predictores, intente centrar el rango muestreado del predictor en ese nivel y muestrear allí. Por ejemplo, si una junta de libertad condicional quiere saber sobre criminales con 2 condenas mayores, puede reunir información sobre criminales con 1, 2 y 3 condenas. Por otro lado, evaluar el estado causal de una variable básicamente requiere un experimento. Es decir, las unidades experimentales deben asignarse al azar a niveles preespecificados de las variables explicativas. Si existe preocupación acerca de si la naturaleza del efecto causal depende o no de alguna otra variable, esa variable debe incluirse en el experimento. Si no es posible realizar un verdadero experimento, entonces se enfrenta a una situación mucho más difícil, una que es demasiado compleja para entrar aquí.
fuente
La mayoría de las respuestas han ayudado a aclarar qué son los modelos de explicación y los modelos de predicción y por qué difieren. Lo que no está claro, hasta ahora, es cómo difieren. Entonces, pensé que ofrecería un ejemplo que podría ser útil.
Supongamos que estamos interesados en modelar el GPA de la universidad en función de la preparación académica. Como medidas de preparación académica, tenemos:
Estrategia para la predicción
Si el objetivo es la predicción, podría usar todas estas variables simultáneamente en un modelo lineal y mi principal preocupación sería la precisión predictiva. Cualquiera de las variables que resulte más útil para predecir el GPA universitario se incluiría en el modelo final.
Estrategia para la explicación
Si el objetivo es la explicación, podría estar más preocupado por la reducción de datos y pensar cuidadosamente sobre las correlaciones entre las variables independientes. Mi principal preocupación sería interpretar los coeficientes.
Ejemplo
En un problema multivariado típico con predictores correlacionados, no sería raro observar coeficientes de regresión que son "inesperados". Dadas las interrelaciones entre las variables independientes, no sería sorprendente ver coeficientes parciales para algunas de estas variables que no están en la misma dirección que sus relaciones de orden cero y que pueden parecer contrarias a la intuición y difíciles de explicar.
Por ejemplo, suponga que el modelo sugiere que (teniendo en cuenta los puntajes de las pruebas de aptitud y el número de pruebas AP completadas con éxito), los GPA más altos de la escuela secundaria están asociados con los GPA más bajos de la universidad. Este no es un problema para la predicción, pero plantea problemas para un modelo explicativo donde tal relación es difícil de interpretar . Este modelo podría proporcionar lo mejor de las predicciones de la muestra, pero hace poco para ayudarnos a comprender la relación entre la preparación académica y el GPA universitario.
En cambio, una estrategia explicativa podría buscar alguna forma de reducción variable, como componentes principales, análisis factorial o SEM para:
Estrategias como estas podrían reducir el poder predictivo del modelo, pero pueden proporcionar una mejor comprensión de cómo se relaciona la preparación académica con el GPA universitario.
fuente
Me gustaría ofrecer una visión centrada en el modelo al respecto.
El modelado predictivo es lo que sucede en la mayoría de los análisis. Por ejemplo, un investigador establece un modelo de regresión con un grupo de predictores. Los coeficientes de regresión representan comparaciones predictivas entre grupos. El aspecto predictivo proviene del modelo de probabilidad: la inferencia se realiza con respecto a un modelo de superpoblación que puede haber producido la población o muestra observada. El propósito de este modelo es predecir nuevos resultados para las unidades que emergen de esta superpoblación. A menudo, este es un objetivo vano porque las cosas siempre están cambiando, especialmente en el mundo social. O porque su modelo trata de unidades raras como países y no puede extraer una nueva muestra. La utilidad del modelo en este caso se deja a la apreciación del analista.
Cuando intenta generalizar los resultados a otros grupos o unidades futuras, esto sigue siendo una predicción pero de un tipo diferente. Podemos llamarlo pronóstico por ejemplo. El punto clave es que el poder predictivo de los modelos estimados es, por defecto, de naturaleza descriptiva . Usted compara un resultado entre grupos e hipotetiza un modelo de probabilidad para estas comparaciones, pero no puede concluir que estas comparaciones constituyen efectos causales.
La razón es que estos grupos pueden sufrir sesgos de selección . Es decir, naturalmente pueden tener una puntuación más alta en el resultado de interés, independientemente del tratamiento (la intervención causal hipotética). O pueden estar sujetos a un tamaño de efecto de tratamiento diferente al de otros grupos. Esta es la razón por la cual, especialmente para los datos de observación, los modelos estimados son generalmente sobre comparaciones predictivas y no explicativas. La explicación trata sobre la identificación y la estimación del efecto causal y requiere experimentos bien diseñados o el uso reflexivo de variables instrumentales. En este caso, las comparaciones predictivas se cortan de cualquier sesgo de selección y representan efectos causales. Por lo tanto, el modelo puede considerarse explicativo.
Descubrí que pensar en estos términos a menudo ha aclarado lo que realmente estaba haciendo al configurar un modelo para algunos datos.
fuente
Podemos aprender mucho más de lo que pensamos de los modelos "predictivos" de la caja negra. La clave está en ejecutar diferentes tipos de análisis de sensibilidad y simulaciones para comprender realmente cómo la SALIDA del modelo se ve afectada por los cambios en el espacio de ENTRADA. En este sentido, incluso un modelo puramente predictivo puede proporcionar ideas explicativas. Este es un punto que a menudo es pasado por alto o mal entendido por la comunidad investigadora. El hecho de que no comprendamos por qué funciona un algoritmo no significa que el algoritmo carece de poder explicativo ...
En general, desde un punto de vista convencional, la respuesta sucinta de Probableislogic es absolutamente correcta ...
fuente
Hay una distinción entre lo que ella llama aplicaciones explicativas y predictivas en estadística. Ella dice que debemos saber cada vez que usamos uno u otro cuál se está utilizando exactamente. Ella dice que a menudo los mezclamos, de ahí la fusión .
Estoy de acuerdo en que en las aplicaciones de las ciencias sociales , la distinción es sensata, pero en las ciencias naturales son y deberían ser las mismas. Además, los llamo inferencia vs. predicción , y estoy de acuerdo en que en las ciencias sociales no se deben mezclar.
Comenzaré con las ciencias naturales. En física estamos enfocados en explicar, estamos tratando de entender cómo funciona el mundo, qué causa qué, etc. Entonces, el enfoque está en la causalidad, la inferencia y demás. Por otro lado, el aspecto predictivo también es parte del proceso científico. De hecho, la forma de probar una teoría, que ya explicaba bien las observaciones (piense en la muestra), es predecir nuevas observaciones y luego verificar cómo funcionó la predicción. Cualquier teoría que carezca de habilidades predictivas tendrá grandes problemas para ganar aceptación en física. Es por eso que los experimentos como el de Michelson-Morley son tan importantes.
En ciencias sociales, desafortunadamente, los fenómenos subyacentes son inestables, irrepetibles, irreproducibles. Si observa la descomposición de los núcleos, obtendrá los mismos resultados cada vez que los observe, y los mismos resultados que obtuve yo o un tipo hace cien años. No en economía o finanzas. Además, la capacidad de realizar experimentos es muy limitada, casi inexistente para todos los fines prácticos, solo observamos y realizamos muestras aleatoriasde observaciones. Puedo seguir adelante, pero la idea es que los fenómenos con los que tratamos son muy inestables, por lo tanto, nuestras teorías no son de la misma calidad que en física. Por lo tanto, una de las formas en que tratamos la situación es centrarnos en la inferencia (cuando intentas comprender qué causa qué o qué impacta) o en el pronóstico (solo di lo que crees que sucederá a esto o aquello que ignora la estructura).
fuente
Un modelo estructural daría explicación y un modelo predictivo daría predicción. Un modelo estructural tendría variables latentes. Un modelo estructural es una culminación simultánea de regresión y análisis factorial.
Las variables latentes se manifiestan en forma de colinealidad múltiple en modelos predictivos (regresión).
fuente