Contexto
Una pregunta popular en este sitio es " ¿Cuáles son los pecados estadísticos comunes? ". Uno de los pecados mencionados es asumir que el enlace "correlación implica causalidad ..."
Luego, en los comentarios con 5 votos a favor, se sugiere que: "Google gana $ 65 mil millones al año sin preocuparse por la diferencia".
A riesgo de analizar en exceso una broma ligera, pensé que este podría ser un punto de discusión útil para desarrollar la distinción entre correlación y causalidad y la relevancia práctica de la distinción; y quizás podría resaltar algo sobre la relación entre el aprendizaje automático y la distinción entre correlación y causalidad.
Supongo que el comentario está abordando tecnologías que subyacen a la generación de resultados de motores de búsqueda y tecnologías relacionadas con pantallas publicitarias.
Pregunta
- ¿En qué medida la distinción entre correlación y causalidad es relevante para la generación de ingresos de Google, quizás centrándose particularmente en la generación de ingresos a través de tecnologías relacionadas con la publicidad y resultados de búsqueda de calidad?
fuente
Respuestas:
La respuesta simple es que Google (o cualquiera) debería preocuparse por la distinción en la medida en que tengan la intención de intervenir . El conocimiento causal le informa sobre los efectos de las intervenciones (acciones) en un dominio determinado.
Si, por ejemplo, Google desea aumentar las tasas de clics en los anuncios, aumentar el número de usuarios de GMail o Google+, o inducir a los usuarios a usar Google en lugar de Bing, entonces deben conocer los efectos de posibles acciones (por ejemplo, aumentar el tamaño de fuente de los anuncios, la promoción de Google+ en revistas impresas o la publicación de diferencias entre los resultados de búsqueda de Google y Bing, respectivamente). La correlación es lo suficientemente buena como para que el motor de búsqueda de Google funcione bien, pero para sus otros sistemas (y su negocio en general), la distinción a menudo es importante.
Vale la pena señalar que Google (y muchas empresas con negocios basados en la web) realizan constantemente experimentos en línea. Esta es una de las mejores y más simples formas de identificar y estimar las dependencias causales.
fuente
Primero, es solo una broma y es incorrecta. Google tiene muchos estadísticos muy talentosos, expertos en recuperación de información, lingüistas, economistas, algunos psicólogos y otros. Estas personas pasan mucho tiempo educando a muchos no estadísticos sobre la diferencia entre correlación y causalidad. Dado que es una organización grande, puede haber bolsillos, incluso grandes bolsillos, de ignorancia, pero la afirmación es definitivamente falsa. Además, gran parte de esa educación se enfrenta a los clientes, especialmente a los anunciantes.
Respuesta más profunda: la diferencia es extremadamente importante. Solo mire la clasificación de los resultados de búsqueda y permítame extenderme más allá de la "correlación" para incluir medidas de similitud, funciones de puntuación, etc. Algunas páginas se miden como buenos resultados para ciertas consultas. Estos tienen una variedad de características predictoras que son importantes para su clasificación. En contraste con estas buenas páginas que son buenos resultados para las consultas, hay un conjunto de páginas web que son páginas que son muy malos resultados para las mismas consultas. Sin embargo, los creadores de esas páginas gastan mucho esfuerzo para que se vean como buenas páginas desde un punto de vista numérico, como coincidencias de texto, enlaces de Internet y más. Sin embargo, el hecho de que estas páginas sean numéricamente "similares" a buenas páginas no significa que, de hecho, sean buenas páginas. Por lo tanto, Google ha invertido y continuará invirtiendo mucho esfuerzo para determinar qué características razonables distinguen (separan) las páginas buenas y las malas.
Esto no es correlación y causalidad, pero es más profundo que eso. Las páginas buenas para ciertas consultas pueden mapearse en un espacio numérico donde parecen similares y distintas de muchas páginas irrelevantes o malas, pero el hecho de que los resultados estén en la misma región del espacio de características no implica que provengan del mismo subconjunto de "alta calidad" de la web.
Respuesta más simple: una perspectiva muy simple es abordar la clasificación de los resultados. El mejor resultado debe ser el primero, pero el hecho de que algo se clasifique primero no significa que sea el mejor resultado. Según algunas métricas de puntuación, puede encontrar que la clasificación de Google está correlacionada con un estándar de oro de evaluaciones de calidad, pero eso no significa que su clasificación implique que los resultados están realmente en este orden en términos de calidad y relevancia.
Actualización (tercera respuesta): con el tiempo, hay otro aspecto que nos afecta a todos: es que el resultado superior de Google puede considerarse autoritario, porque es el resultado superior en Google. Aunque el análisis de enlaces (p. Ej., "PageRank", un método para el análisis de enlaces) es un intento de reflejar la autoridad percibida, con el tiempo las nuevas páginas sobre un tema pueden simplemente reforzar esa estructura de enlaces al enlazar al resultado superior en Google. Una página más nueva que tiene más autoridad tiene un problema con el inicio en relación con el primer resultado. Como Google quiere entregar la página más relevante en la actualidad , surgen una variedad de factores, incluido el llamado fenómeno de "enriquecerse para enriquecerse" debido a un efecto implícito de correlación en la causalidad percibida.
Actualización (cuarta respuesta): me di cuenta (para un comentario más abajo) de que podría ser útil leer la Alegoría de la cueva de Platón para tener una idea de cómo interpretar la correlación y la causalidad como resultado de "reflexiones / proyecciones" de la realidad y cómo nosotros (o nuestras máquinas) lo percibimos. La correlación, estrictamente limitada a la Correlación de Pearson, es demasiado limitada como una interpretación del tema de la asociación de malentendidos (más amplia que la correlación) y la causalidad.
fuente
Autor del quip aquí.
El comentario fue parcialmente inspirado por una charla de David Mease (en Google), donde dijo, y parafraseando, a las compañías de seguros de automóviles no les importa si ser hombre causa más accidentes, siempre y cuando esté correlacionado, tienen que cobrar más. De hecho, es imposible cambiar el género de alguien en un experimento, por lo que la causa nunca podría mostrarse.
Del mismo modo, Google no necesita preocuparse si el color rojo hace que alguien haga clic en un anuncio, si se correlaciona con más clics, pueden cobrar más por ese anuncio.
También se inspiró en este artículo en Wired: The End of Theory: The Data Deluge Makes the Scientific Method Obsolete . Una cita:
"La filosofía de fundación de Google es que no sabemos por qué esta página es mejor que aquella: si las estadísticas de los enlaces entrantes dicen que sí, eso es lo suficientemente bueno".
Obviamente, Google tiene muchas personas muy inteligentes que saben la diferencia entre causalidad y correlación, pero en su caso, pueden ganar mucho dinero sin preocuparse por eso.
fuente
Estoy de acuerdo con David : la diferencia es importante si tiene la intención de intervenir, y Google puede probar los resultados de las intervenciones ejecutando experimentos controlados. (El programa óptimo de tales experimentos depende de su conjunto de hipótesis causales, que usted aprende de experimentos anteriores más datos de observación , por lo que las correlaciones siguen siendo útiles).
Hay una segunda razón por la que Google podría querer aprender relaciones causales. Las relaciones causales son más sólidas para las intervenciones de otros jugadores. Las intervenciones tienden a ser locales, por lo que pueden cambiar una parte de la red causal pero dejar sin cambios todos los demás mecanismos causales. Por el contrario, las relaciones predictivas pueden fallar si se rompe un vínculo causal distante. Internet está cambiando constantemente, y Google debería estar interesado en qué características del entorno en línea son más sólidas para esos cambios.
fuente