¿Procedimiento automatizado para seleccionar un subconjunto de puntos de datos con una correlación más fuerte?

15

¿Existe algún procedimiento estándar (tal que se pueda citarlo como referencia) para seleccionar el subconjunto de puntos de datos de un grupo más grande con la correlación más fuerte (a lo largo de solo dos dimensiones)?

Por ejemplo, supongamos que tiene 100 puntos de datos. Desea un subconjunto de 40 puntos con la correlación más fuerte posible a lo largo de las dimensiones X e Y.

Me doy cuenta de que escribir código para hacer esto sería relativamente sencillo, pero me pregunto si hay alguna fuente para citarlo.

Julie
fuente
33
"Me doy cuenta de que escribir código para hacer esto sería relativamente sencillo". Ah? ¿Y cómo harías eso?
user603
33
Supongo que ella quiso decir algo así como "la mejor correlación de subconjunto"; seleccione subconjuntos de ( k = 40 en su ejemplo) puntos de datos de su N ( N = 100 en su ejemplo) y calcule la estimación de la correlación ρ ( X , Y ) (suponiendo que ella quisiera saber un subconjunto de puntos con la mejor correlación lineal ). Sin embargo, este proceso parece computacionalmente costoso para N grande , porque debe calcular ( Nkk=40NN=100ρ(X,Y)N multiplicado por el coeficiente. (Nk)
Néstor
1
Si está dispuesto a mirar combinaciones lineales de las variables , correlaciones canónicas es lo que está buscando. De lo contrario, la selección de la función de correlación podría ser de interés. X
MånsT
Creo que algunos pueden estar malentendiéndome. @ Néstor parece tener razón. Hay 100 artículos, cada uno con un valor X y un valor Y. Quiero encontrar el subconjunto de 40 que tiene la correlación más fuerte posible (con regresión lineal) entre los valores X e Y. Puedo escribir código para explorar todo el espacio de búsqueda, pero ¿qué citaría para admitir dicho método? ¿Cómo se llama para encontrar la correlación óptima entre todos los subconjuntos posibles?
Julie
1
¿Está interesado en maximizar la correlación u obtener la línea de regresión de mejor ajuste como, por ejemplo, medida por la varianza residual mínima? Los dos no son lo mismo cuando puedes elegir tus puntos de datos.
jbowman

Respuestas:

17

Diría que su método encaja en la categoría general descrita en este artículo de Wikipedia que también tiene otras referencias si necesita algo más que Wikipedia. Algunos de los enlaces dentro de ese artículo también se aplicarían.

Otros términos que podrían aplicarse (si desea realizar más búsquedas) incluyen "Dragado de datos" y "Torturar los datos hasta que confiesen".

Tenga en cuenta que siempre puede obtener una correlación de 1 si solo elige 2 puntos que no tienen valores x o y idénticos. Hubo un artículo en la revista Chance hace unos años que mostraba que cuando tienes una variable x e y esencialmente sin correlación, puedes encontrar una manera de agrupar las x y promediar las y dentro de los contenedores para mostrar una tendencia creciente o decreciente ( Chance 2006, Visual Revelations: Finding What Is Not There Through the Lafortunated binning of Results: The Mendel Effect, págs. 49-52). Además, con un conjunto de datos completo que muestra una correlación positiva moderada, es posible elegir un subconjunto que muestre una correlación negativa. Teniendo en cuenta esto, incluso si tiene una razón legítima para hacer lo que propone, le está dando a los escépticos muchos argumentos para usar contra cualquier conclusión que se les ocurra.

Greg Snow
fuente
¿Cómo se llama el artículo de The American Statistician?
asumido normal
1
Me acordé mal de dónde vi el artículo, en realidad estaba en Chance Magazine en lugar de The American Statistician. Lo he corregido anteriormente e incluí el año, el título y los números de página para que las partes interesadas puedan encontrar copias fácilmente.
Greg Snow
4

El algoritmo RANSAC suena como lo que quieres. Básicamente, asume que sus datos consisten en una combinación de valores internos y atípicos, y trata de identificar los datos internos mediante muestreos repetidos de subconjuntos de datos, ajustando un modelo y luego tratando de ajustar cualquier otro punto de datos al modelo. Aquí está el artículo de wikipedia al respecto .

En su caso, puede seguir repitiendo el algoritmo mientras guarda el mejor modelo actual que se ajusta al menos a 40 puntos, por lo que no le garantizará la mejor correlación absoluta, pero debería acercarse.

José
fuente
1

Me cuesta imaginar un contexto en el que esto sería una buena práctica, pero supongamos por un momento que realmente tienes una buena razón para hacerlo.

Un algoritmo de fuerza bruta podría ser algo como esto:

  1. Calcula todas las submuestras posibles de n de su muestra general de N. La mayoría de los paquetes estadísticos tienen funciones para calcular combinaciones sin reemplazos que harán esto por usted.

  2. Estima la correlación entre x e y para cada una de las submuestras y selecciona el máximo de ese conjunto.

Acabo de ver el comentario del póster original sobre una referencia para este procedimiento. No estoy seguro de que alguien tenga un nombre específico para este procedimiento, después de todo, simplemente está generando una distribución empírica de toda la correlación posible en su conjunto de datos y seleccionando el máximo. Se utilizan enfoques similares al hacer bootstraping, pero en ese caso le interesa la variabilidad empírica, NO los usa para elegir una submuestra específica asociada con el valor máximo.

David
fuente
2
1032N=100n=40
No es necesario ser sarcástico al respecto :-p. Punto justo.
David
Lo siento ... Sin embargo, me gustan esas cifras, porque nos dan mucho espacio para un algoritmo mejorado :-).
whuber