¿Existe algún procedimiento estándar (tal que se pueda citarlo como referencia) para seleccionar el subconjunto de puntos de datos de un grupo más grande con la correlación más fuerte (a lo largo de solo dos dimensiones)?
Por ejemplo, supongamos que tiene 100 puntos de datos. Desea un subconjunto de 40 puntos con la correlación más fuerte posible a lo largo de las dimensiones X e Y.
Me doy cuenta de que escribir código para hacer esto sería relativamente sencillo, pero me pregunto si hay alguna fuente para citarlo.
Respuestas:
Diría que su método encaja en la categoría general descrita en este artículo de Wikipedia que también tiene otras referencias si necesita algo más que Wikipedia. Algunos de los enlaces dentro de ese artículo también se aplicarían.
Otros términos que podrían aplicarse (si desea realizar más búsquedas) incluyen "Dragado de datos" y "Torturar los datos hasta que confiesen".
Tenga en cuenta que siempre puede obtener una correlación de 1 si solo elige 2 puntos que no tienen valores x o y idénticos. Hubo un artículo en la revista Chance hace unos años que mostraba que cuando tienes una variable x e y esencialmente sin correlación, puedes encontrar una manera de agrupar las x y promediar las y dentro de los contenedores para mostrar una tendencia creciente o decreciente ( Chance 2006, Visual Revelations: Finding What Is Not There Through the Lafortunated binning of Results: The Mendel Effect, págs. 49-52). Además, con un conjunto de datos completo que muestra una correlación positiva moderada, es posible elegir un subconjunto que muestre una correlación negativa. Teniendo en cuenta esto, incluso si tiene una razón legítima para hacer lo que propone, le está dando a los escépticos muchos argumentos para usar contra cualquier conclusión que se les ocurra.
fuente
El algoritmo RANSAC suena como lo que quieres. Básicamente, asume que sus datos consisten en una combinación de valores internos y atípicos, y trata de identificar los datos internos mediante muestreos repetidos de subconjuntos de datos, ajustando un modelo y luego tratando de ajustar cualquier otro punto de datos al modelo. Aquí está el artículo de wikipedia al respecto .
En su caso, puede seguir repitiendo el algoritmo mientras guarda el mejor modelo actual que se ajusta al menos a 40 puntos, por lo que no le garantizará la mejor correlación absoluta, pero debería acercarse.
fuente
Me cuesta imaginar un contexto en el que esto sería una buena práctica, pero supongamos por un momento que realmente tienes una buena razón para hacerlo.
Un algoritmo de fuerza bruta podría ser algo como esto:
Calcula todas las submuestras posibles de n de su muestra general de N. La mayoría de los paquetes estadísticos tienen funciones para calcular combinaciones sin reemplazos que harán esto por usted.
Estima la correlación entre x e y para cada una de las submuestras y selecciona el máximo de ese conjunto.
Acabo de ver el comentario del póster original sobre una referencia para este procedimiento. No estoy seguro de que alguien tenga un nombre específico para este procedimiento, después de todo, simplemente está generando una distribución empírica de toda la correlación posible en su conjunto de datos y seleccionando el máximo. Se utilizan enfoques similares al hacer bootstraping, pero en ese caso le interesa la variabilidad empírica, NO los usa para elegir una submuestra específica asociada con el valor máximo.
fuente