Estoy arrojando aquí el problema tal como lo recibí.
Tengo dos variables aleatorias. Uno de los cuales es continuo (Y) y el otro es discreto y se abordará como ordinal (X). Puse debajo de la trama que recibí junto con la consulta.
La persona que me envía los datos quiere medir la fuerza de la asociación entre X e Y. Estoy buscando ideas que no se llenen de suposiciones sobre qué proceso generó los datos. Tenga en cuenta que no se trata de encontrar una forma no paramétrica de probar la fuerza de la relación (como en bootstrap) sino de encontrar una forma no paramétrica de medirla .
Por otro lado, la eficiencia no es un problema, ya que hay muchos puntos de datos.
Respuestas:
Por definición, la escala ordinal es el indicador en el que
1 2 3 4
se desconocen las distancias reales entre las muescas . Es como si estuvieras viendo una regla bajo drogas / alcohol. Las verdaderas distancias pueden ser cualquiera. Podría ser1 2 3 4
o1 2 3 4
o lo que sea. No podemos calcular una estadística, como una correlación, a menos que decidamos las distancias y las arreglemos.Un razonamiento puede ser el siguiente. Dado que nuestra escala de medición, el medidor, está distorsionada de una manera monotónica desconocida, no podemos creer en los valores de los datos. Solo el orden de sus magnitudes es confiable. Sin más arnés de cerebro, declara el orden como el valor. Por lo tanto, reemplazamos la distribución observada por la distribución uniforme, los rangos . Después de eso, puede calcular el coeficiente de asociación, por ejemplo, Pearson . Ese será Spearman , como sabemos. Pearson mide la fuerza de la asociación lineal. La clasificación de las variables fue un truco para linealizar esa parte de la relación monotónica que se atribuye a las distribuciones que no fueron uniformes inicialmente. Por lo tanto, Spearmanr rho r rho es la medida de tal monotonicidad en la relación que puede convertirse en linealidad bajo la acción de uniformar las distribuciones marginales. En la pregunta OP, solo una de las dos variables es ordinal (y la segunda es continua). Por lo tanto, no es necesario, en general, clasificar ambas variables. Puede clasificar el ordinal y luego calcular .r
Otro enfoque , alternativo a la clasificación (uniformado), puede ser la escala óptima de la variable ordinal. El escalado óptimo es un procedimiento iterativo con el objetivo de encontrar tales distancias en la escala ordinal, es decir, encontrar dicha transformación monotónica de la misma, de modo que la lineal entre las variables se maximice lo más posible. Mientras que el enfoque de clasificación se basa en la premisa "la escala verdadera corresponde a los datos que tienen una distribución uniforme", el enfoque de escalamiento óptimo se basa en la premisa "la escala verdadera corresponde a los datos que tienen una lineal máximar r ". La escala óptima se puede hacer en regresión categórica (CATREG). Sin embargo, la regresión categórica requiere que la otra variable de entrada sea discreta (no necesariamente ordinal) y, por lo tanto, si es continua y tiene muchos valores únicos, tendrá que ser ordenada arbitrariamente por usted. .
También hay otros enfoques. Pero de cualquier manera, transformamos la escala ordinal monotónicamente "para ..." (alguna suposición o algún objetivo), porque la escala ordinal se nos distorsiona de una manera desconocida. Radicalmente, otra decisión sería "sobriar" primero y decidir que no está distorsionada (es decir, es un intervalo), o está distorsionada de una manera conocida (no es un intervalo), o es nominal.
Algunos enfoques asimétricos pueden incluir la regresión ordinal de la variable ordinal por la otra (intervalo / continuo). O regresión lineal de este último por el ordinal, con el modelo donde el predictor se toma como contraste polinomial (es decir, ingresado como
b1X + b2X^2 + b3X^3,...
). La debilidad de estos enfoques es que son asimétricos: una variable es dependiente, la otra es independiente.fuente
¿Hay alguna razón por la cual el coeficiente de correlación de orden de rango de Spearman (una medida no paramétrica de asociación monotónica ) no sea suficiente? ¿La monotonicidad es demasiado "frontal"? Se basa en diferencias ( ) en rangos generados independientemente ( e ) para sus variables:di=xi−yi xi yi
Si la monotonicidad es una suposición demasiado estricta, me pregunto si los enfoques basados en información máxima, como la propuesta por Reshef (2011, 2013), que ni siquiera asumen relaciones funcionales entre e podrían estar más en la línea de lo que usted es. ¿buscando?X Y
Referencias
Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M. y Sabeti, P. (2011). Detección de nuevas asociaciones en grandes conjuntos de datos. Science , 334 (6062): 1518-1524.
Reshef, D., Reshef, Y., Mitzenmacher, M. y Sabeti, P. (2013). Análisis de equidad del coeficiente máximo de información, con comparaciones . arXiv , 14 de agosto.
fuente