Tengo un conjunto de datos de variables discretas (ordinales, merísticas y nominales) que describen los caracteres morfológicos del ala en varias especies de insectos estrechamente relacionadas. Lo que estoy buscando hacer es realizar algún tipo de análisis que me brinde una representación visual de la similitud de las diferentes especies en función de las características morfológicas. Lo primero que me vino a la cabeza fue PCA (este es el tipo de visualización que estoy buscando crear), pero después de analizarlo (particularmente otras preguntas como: ¿Se puede aplicar el análisis de componentes principales a conjuntos de datos que contienen una mezcla de continuo? y variables categóricas?), parece que PCA puede ser inapropiado para datos discretos (PCA se utiliza en este tipo de estudios en la literatura, pero siempre con datos continuos). Ignorando los antecedentes estadísticos de por qué estos datos son inapropiados, la PCA me da resultados relativamente perfectos con respecto a mi pregunta biológica (los grupos híbridos de interés se encuentran justo en el medio de sus grupos paternos).
También probé el análisis de correspondencia múltiple para apaciguar las estadísticas (al menos en lo que respecta a mi comprensión), pero parece que no puedo obtener una trama que sea análoga a la que obtendría con PCA, donde mis observaciones (los individuos biológicos) están separados por color para mostrar los diferentes grupos (diferentes especies, biológicamente hablando). Parece que este análisis tiene como objetivo describir cómo las variables (aquí, mis características morfológicas) están relacionadas entre sí, no las observaciones individuales. Y cuando trazo observaciones coloreadas por grupo, solo obtengo un único valor (quizás un promedio) que describe todo el conjunto de individuos. He hecho el análisis en R, así que quizás tampoco soy lo suficientemente inteligente como para hacer que mi idea de la trama funcione.
¿Estoy en lo correcto al intentar este tipo de análisis con mis datos, o estoy fuera de lugar? Si no puede decirlo, mi experiencia estadística es limitada, por lo que las ecuaciones que ocurren debajo de estos análisis están completamente sobre mi cabeza. Estoy tratando de llevar a cabo este análisis de manera completamente descriptiva (no necesito hacer más cálculos numéricos posteriores), y he leído que si este es el caso, PCA será suficiente, pero quiero asegurarme de que no violando demasiados supuestos estadísticos.
Respuestas:
Depende un poco de tu propósito, pero si buscas una herramienta de visualización, hay un truco para aplicar el escalamiento multidimensional a la salida de la proximidad aleatoria del bosque que puede producir imágenes bonitas y funcionará para una mezcla de datos categóricos y continuos. Aquí clasificaría las especies de acuerdo con sus predictores. Pero, y es una gran advertencia, no sé si alguien realmente sabe lo que significa la salida de estas visualizaciones.
Otra alternativa podría ser aplicar una escala multidimensional a algo parecido a la similitud de Gower.
Hay una pregunta pendiente: ¿cuál es su propósito final? ¿Qué pregunta quieres responder? Me gustan estas técnicas como herramientas exploratorias que quizás lo lleven a hacer más y mejores preguntas, pero no estoy seguro de lo que explican o le dicen por sí mismas.
Tal vez estoy leyendo demasiado en su pregunta, pero si desea explorar qué variables predictoras tienen los valores para los híbridos que se encuentran entre las dos especies puras, podría ser mejor construir un modelo para estimar los valores de las variables predictoras que conducen a las especies y los híbridos directamente. Si desea medir cómo se relacionan las variables entre sí, tal vez construya una matriz de correlación, y hay muchas visualizaciones claras para esto.
fuente