Supongamos que tenemos un conjunto de datos con puntos. Queremos realizar una regresión lineal, pero primero clasificamos los valores y los valores independientemente uno del otro, formando un conjunto de datos . ¿Hay alguna interpretación significativa de la regresión en el nuevo conjunto de datos? esto tiene nombre?Y i ( X i , Y j )
Me imagino que esta es una pregunta tonta, así que me disculpo, no estoy formalmente entrenado en estadística. En mi opinión, esto destruye completamente nuestros datos y la regresión no tiene sentido. Pero mi gerente dice que obtiene "mejores regresiones la mayor parte del tiempo" cuando hace esto (aquí "mejor" significa más predicción). Tengo la sensación de que se está engañando a sí mismo.
EDITAR: Gracias por todos sus buenos y pacientes ejemplos. Le mostré los ejemplos de @ RUser4512 y @gung y él sigue firme. Se está irritando y yo me estoy agotando. Me siento abatido. Probablemente comenzaré a buscar otros trabajos pronto.
fuente
Respuestas:
No estoy seguro de lo que su jefe piensa que significa "más predictivo". Muchas personas creen incorrectamente que los valores más bajos significan un modelo mejor / más predictivo. Eso no es necesariamente cierto (siendo este el caso). Sin embargo, la clasificación independiente de ambas variables de antemano garantizará un valor más bajo . Por otro lado, podemos evaluar la precisión predictiva de un modelo comparando sus predicciones con los nuevos datos generados por el mismo proceso. Lo hago a continuación en un ejemplo simple (codificado con ). ppags pags
R
La gráfica superior izquierda muestra los datos originales. Existe alguna relación entre e (es decir, la correlación es de alrededor de .) La gráfica superior derecha muestra cómo se ven los datos después de ordenar de forma independiente ambas variables. Puede ver fácilmente que la fuerza de la correlación ha aumentado sustancialmente (ahora es de aproximadamente ). Sin embargo, en las parcelas inferiores, vemos que la distribución de los errores predictivos está mucho más cerca de para el modelo entrenado en los datos originales (sin clasificar). El error predictivo absoluto medio para el modelo que utilizó los datos originales es , mientras que el error predictivo absoluto medio para el modelo entrenado en los datos ordenados esy .31 .99 0 1.1 1.98 y 68 %X y .31 .99 0 0 1.1 1.98 —Casi dos veces más grande. Eso significa que las predicciones del modelo de datos ordenados están mucho más lejos de los valores correctos. La gráfica en el cuadrante inferior derecho es una gráfica de puntos. Muestra las diferencias entre el error predictivo con los datos originales y con los datos ordenados. Esto le permite comparar las dos predicciones correspondientes para cada nueva observación simulada. Los puntos azules a la izquierda son momentos en que los datos originales estaban más cerca del nuevo valor , y los puntos rojos a la derecha son momentos en que los datos ordenados arrojan mejores predicciones. Hubo predicciones más precisas del modelo entrenado sobre los datos originales el del tiempo. y 68%
El grado en que la clasificación causará estos problemas es una función de la relación lineal que existe en sus datos. Si la correlación entre e ya fuera , la clasificación no tendría ningún efecto y, por lo tanto, no sería perjudicial. Por otro lado, si la correlación fueray 1.0 - 1.0x y 1.0 −1.0 , la clasificación revertiría completamente la relación, haciendo que el modelo sea lo más inexacto posible Si los datos no estuvieran completamente correlacionados originalmente, la clasificación tendría un efecto perjudicial intermedio, pero aún bastante grande, sobre la precisión predictiva del modelo resultante. Como usted menciona que sus datos generalmente están correlacionados, sospecho que ha proporcionado cierta protección contra los daños intrínsecos a este procedimiento. Sin embargo, ordenar primero es definitivamente dañino. Para explorar estas posibilidades, simplemente podemos volver a ejecutar el código anterior con diferentes valores para
B1
(usando la misma semilla para la reproducibilidad) y examinar el resultado:B1 = -5
:B1 = 0
:B1 = 5
:fuente
<-
veces, pero mi objetivo en CV es escribir el código R lo más cerca posible del pseudocódigo para que sea más legible para las personas que no están familiarizadas con R.=
es bastante universal entre los lenguajes de programación como operador de asignación .Si desea convencer a su jefe, puede mostrar lo que está sucediendo con datos simulados, aleatorios e independientes . Con R:x,y
Obviamente, los resultados ordenados ofrecen una regresión mucho más agradable. Sin embargo, dado el proceso utilizado para generar los datos (dos muestras independientes) no hay absolutamente ninguna posibilidad de que uno pueda usarse para predecir el otro.
fuente
Su intuición es correcta: los datos ordenados independientemente no tienen un significado confiable porque las entradas y salidas se asignan aleatoriamente entre sí en lugar de cuál era la relación observada.
Hay una (buena) posibilidad de que la regresión en los datos ordenados se vea bien, pero no tiene sentido en su contexto.
Ejemplo intuitivo: suponga un conjunto de datos para alguna población. El gráfico de los datos no adulterados probablemente se parecería más bien a una función logarítmica o de poder: tasas de crecimiento más rápidas para los niños que disminuyen para los adolescentes posteriores y se acercan "asintóticamente" a la estatura máxima para adultos jóvenes y mayores.(X=age,Y=height)
Si ordenamos en orden ascendente, la gráfica probablemente será casi lineal. Por lo tanto, la función de predicción es que las personas crecen más alto durante toda su vida. No apostaría dinero en ese algoritmo de predicción.x,y
fuente
En realidad, hagamos esto realmente obvio y simple. Supongamos que realizo un experimento en el que mido 1 litro de agua en un recipiente estandarizado y miro la cantidad de agua que queda en el recipiente en función del tiempo , la pérdida de agua debido a la evaporación:Vi ti
Ahora suponga que las siguientes medidas en horas y litros, respectivamente: Esto es, obviamente, datos perfectamente correlacionados (e hipotéticos). Pero si tuviera que clasificar el tiempo y las mediciones de volumen, obtendría Y la conclusión de este conjunto de datos ordenados es que a medida que aumenta el tiempo, aumenta el volumen de agua y, además, que a partir de 1 litro de agua, obtendría más de 1 litro después de 5 horas de espera . ¿No es eso notable? La conclusión no solo es opuesta a lo que dicen los datos originales, sino que también sugiere que hemos descubierto una nueva física.(ti,Vi)
fuente
Es un arte real y requiere una comprensión real de la psicología para poder convencer a algunas personas del error de sus formas. Además de todos los excelentes ejemplos anteriores, una estrategia útil es a veces mostrar que la creencia de una persona lleva a una inconsistencia consigo misma. O prueba este enfoque. Descubra algo en lo que su jefe cree firmemente, como el desempeño de las personas en la tarea Y no tiene relación con la cantidad de atributo X que poseen. Muestre cómo el enfoque de su propio jefe daría como resultado la conclusión de una fuerte asociación entre X e Y. Aproveche las creencias políticas / raciales / religiosas.
La invalidez facial debería haber sido suficiente. Qué jefe terco. Mientras tanto, busca un mejor trabajo. Buena suerte.
fuente
Un ejemplo mas. Imagine que tiene dos variables, una relacionada con el consumo de chocolate y la segunda relacionada con el bienestar general. Tiene una muestra de dos y sus datos se ven a continuación:
¿Cuál es la relación entre chocolate y felicidad según tu muestra? Y ahora, cambie el orden de una de las columnas: ¿cuál es la relación después de esta operación?
El mismo problema puede abordarse de manera diferente. Digamos que tiene una muestra más grande, con algunos casos y mide dos variables continuas: consumo de chocolate por día (en gramos) y felicidad (imagine que tiene alguna forma de medirlo). Si está interesado si están relacionados, puede medir la correlación o usar el modelo de regresión lineal, pero a veces en tales casos las personas simplemente dicotomizan una variable y la usan como un factor de agrupación con prueba (esto no es lo mejor y noN tt enfoque recomendado, pero déjame usarlo como ejemplo). Entonces divide su muestra en dos grupos: con alto consumo de chocolate y con bajo consumo de chocolate. Luego, compara la felicidad promedio en ambos grupos. Ahora imagine lo que sucedería si clasificara la variable de felicidad independientemente de la variable de agrupación: todos los casos con alta felicidad irían al grupo de alto consumo de chocolate, y todos los casos de baja felicidad terminarían en un grupo de bajo consumo de chocolate, si tal prueba de hipótesis tuviera cualquier sentido? Esto puede extrapolarse fácilmente a la regresión si imagina que en lugar de dos grupos para el consumo de chocolate tiene estos grupos, uno para cada participante (observe que prueba está relacionada con la regresión).N t
En la regresión o correlación bivariada, nos interesan las relaciones por pares entre cada -ésimo valor de y el -ésimo valor de , el cambio de orden de las observaciones destruye esta relación. Si ordena ambas variables, esto siempre las lleva a estar más positivamente correlacionadas entre sí, ya que siempre ocurrirá que si una de las variables aumenta, la otra también aumenta (¡porque están ordenadas!).X i Yi X i Y
Tenga en cuenta que a veces en realidad estamos interesados en cambiar el orden de los casos, lo hacemos en los métodos de remuestreo . Por ejemplo, podemos mezclar intencionalmente las observaciones varias veces para aprender algo sobre la distribución nula de nuestros datos (cómo se verían nuestros datos si no hubiera relaciones por pares), y luego podemos comparar si nuestros datos reales son de alguna manera mejores que los aleatorios barajado Lo que hace su gerente es exactamente lo contrario: intencionalmente obliga a las observaciones a tener una estructura artificial donde no había estructura, lo que conduce a correlaciones falsas.
fuente
Un ejemplo simple que tal vez su gerente podría entender:
Digamos que tienes la Moneda Y y la Moneda X, y volteas cada una de ellas 100 veces. Luego, desea predecir si obtener una cara con Coin X (IV) puede aumentar la posibilidad de obtener una cara con Coin Y (DV).
Sin ordenar, la relación será nula, porque el resultado de la moneda X no debería afectar el resultado de la moneda Y. Con la clasificación, la relación será casi perfecta.
¿Cómo tiene sentido concluir que tienes una buena posibilidad de obtener una cara en un lanzamiento de moneda si acabas de lanzar una cara con una moneda diferente?
fuente
Esta técnica es realmente asombrosa. Estoy encontrando todo tipo de relaciones que nunca sospeché. Por ejemplo, no habría sospechado que los números que aparecen en la lotería Powerball, que se RECLAMA son aleatorios, ¡en realidad están altamente correlacionados con el precio de apertura de las acciones de Apple el mismo día! Amigos, creo que estamos a punto de cobrar en grande. :)
Hmm, no parece tener una relación significativa. PERO usando la nueva técnica mejorada:
NOTA: Esto no pretende ser un análisis serio. Simplemente muestre a su gerente que pueden hacer que CUALQUIERA dos variables estén significativamente relacionadas si las ordena a ambas.
fuente
Un montón de buenos ejemplos de contador aquí. Permítanme agregar un párrafo sobre el corazón del problema.
En realidad, permítanme agregar un párrafo sobre por qué "funciona" también.
fuente
En realidad, la prueba que se describe (es decir, ordenar los valores X y los valores Y independientemente y hacer retroceder uno contra el otro) prueba algo, suponiendo que los (X, Y) se muestrean como pares independientes de una distribución bivariada. Simplemente no es una prueba de lo que su gerente quiere probar. Es esencialmente verificar la linealidad de una gráfica QQ, comparando la distribución marginal de las X con la distribución marginal de las Ys. En particular, los 'datos' caerán cerca de una línea recta si la densidad de las X (f (x)) está relacionada con la densidad de las Y (g (y)) de esta manera:
fuente
Es extraño que el contraejemplo más obvio todavía no esté presente entre las respuestas en su forma más simple.
Este es un tipo de "inverso directo" del patrón que podría estar dispuesto a encontrar aquí.
fuente
Tienes razón. ¡Su gerente encontraría "buenos" resultados! Pero no tienen sentido. Lo que obtienes cuando los clasificas independientemente es que los dos aumentan o disminuyen de manera similar y esto da la apariencia de un buen modelo. Pero las dos variables han sido despojadas de su relación real y el modelo es incorrecto.
fuente
La regresión lineal suele ser menos razonable (existen excepciones, ver otras respuestas); pero la geometría de las colas y de la distribución de errores te dice cuán lejos de similares son las distribuciones.
fuente
Tengo una intuición simple de por qué esta es realmente una buena idea si la función es monótona :
PD: Me parece sorprendente cómo una pregunta aparentemente simple puede conducir a nuevas e interesantes formas de repensar el modelo de estándares. Por favor, gracias jefe!
fuente
Digamos que tiene estos puntos en un círculo de radio 5. Calcula la correlación:
Luego ordena los valores de x e y y vuelve a hacer la correlación:
Mediante esta manipulación, cambia un conjunto de datos con una correlación de 0.0 a uno con una correlación de 1.0. Eso es un problema.
fuente
Déjame jugar a Devil's Advocate aquí. Creo que muchas respuestas han dado casos convincentes de que el procedimiento del jefe está fundamentalmente equivocado. Al mismo tiempo, ofrezco un contraejemplo que ilustra que el jefe puede haber visto que los resultados mejoran con esta transformación equivocada.
Creo que reconocer que este procedimiento podría haber "funcionado" para el jefe podría comenzar un argumento más persuasivo: Claro, funcionó, pero solo bajo estas circunstancias afortunadas que generalmente no son válidas. Entonces podemos mostrar, como en la excelente respuesta aceptada, lo malo que puede ser cuando no tenemos suerte. Que es la mayor parte del tiempo. De forma aislada, mostrando el jefe de lo malo que puede ser no le podría persuadir porque él podría haber visto un caso en el que hace mejorar las cosas, y la cifra que nuestro argumento de fantasía debe tener un defecto en alguna parte.
Encontré estos datos en línea y, efectivamente, parece que la regresión se mejora mediante la clasificación independiente de X e Y porque: a) los datos están altamente correlacionados positivamente, yb) OLS realmente no funciona bien con extrema (alta -palanca) valores atípicos. La altura y el peso tienen una correlación de 0.19 con el valor atípico incluido, 0.77 con el valor atípico excluido y 0.78 con X e Y independientemente clasificados.
Entonces, me parece que el modelo de regresión en este conjunto de datos se mejora mediante la clasificación independiente (línea negra versus línea roja en el primer gráfico), y hay una relación visible (negro versus rojo en el segundo gráfico), debido a que el conjunto de datos particular es altamente (positivamente) correlacionado y tener el tipo correcto de valores atípicos que dañan la regresión más que la combinación aleatoria que ocurre cuando clasifica independientemente x e y.
Una vez más, no decir que la ordenación independiente hace algo sensato en general, ni que es la respuesta correcta aquí. Solo que el jefe podría haber visto algo así que funcionó en las circunstancias correctas.
fuente
Si ha preseleccionado las variables para que sean monótonas, en realidad es bastante robusto. Google "modelos lineales impropios" y "Robin Dawes" o "Howard Wainer". Dawes y Wainer hablan sobre formas alternativas de elegir coeficientes. John Cook tiene una columna corta ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ) en ella.
fuente
Lo pensé y pensé que hay una estructura aquí basada en estadísticas de pedidos. Lo comprobé, y parece que la mo del gerente no es tan loca como parece
Coeficiente de correlación de estadísticas de pedidos como una nueva medición de asociación con aplicaciones al análisis de bioseñales
http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.
fuente