¿Cuáles son los peligros de calcular las correlaciones de Pearson (en lugar de las tetracóricas) para las variables binarias en el análisis factorial?

Investigo sobre juegos educativos, y algunos de mis proyectos actuales implican el uso de datos de BoardGameGeek (BGG) y VideoGameGeek (VGG) para examinar las relaciones entre los elementos de diseño de los juegos (es decir, "ambientado en la Segunda Guerra Mundial", "implica lanzar dados" ) y calificaciones de jugadores de esos juegos (es decir, puntajes de 10). Cada uno de estos elementos de diseño corresponde con una etiqueta en el sistema BGG o VGG, por lo que cada elemento es esencialmente una variable dicotómica. Un juego tiene un 1 para cada etiqueta que está presente en la base de datos, y un 0 para cada etiqueta que no está presente.

Hay docenas de estas etiquetas, por lo que quiero usar el análisis factorial exploratorio (EFA) para obtener una cantidad manejable de "géneros" que capturen patrones en el diseño del juego. Consultar varias fuentes, entiendo que ya que estoy trabajando con dicotómicas las variables, que debería utilizar policóricas correlaciones ( tetracóricas , sobre todo aquí) en lugar de Pearson queridos cuando sube con mis factores (hay también otras opciones como rasgo latente son análisis- por ahí, pero este es el que estoy explorando por ahora).

Por curiosidad, se me ocurrieron dos conjuntos de factores, uno con correlaciones de Pearson y el otro con correlaciones policóricas (el mismo número de factores cada vez). Mi problema es que los factores calculados usando las correlaciones de Pearson tienen mucho más sentido y son más fáciles de interpretar que los factores calculados usando correlaciones policóricas. En otras palabras, los "géneros" del primer conjunto de factores tienen sentido intuitivo y se corresponden con mi comprensión de cómo se diseñan típicamente los juegos; ese no es el caso para el segundo conjunto de factores.

Por un lado, quiero asegurarme de cumplir con los supuestos de las pruebas que estoy utilizando, incluso si eso hace que mis resultados sean menos bonitos. Por otro lado, creo que parte del objetivo del análisis factorial y (más ampliamente) la construcción de modelos es encontrar algo útil, y la información más útil emerge cuando estoy "rompiendo las reglas". ¿Es la necesidad de un modelo útil suficiente para superar las violaciones de los supuestos de esta prueba? ¿Cuáles son exactamente las consecuencias de usar las correlaciones de Pearson en lugar de las policoróricas?

r categorical-data factor-analysis binary-data Spencer Greenhalgh
fuente

Las suposiciones de la normalidad multivariante subyacente son tan fuertes con los datos de más de tres o más dimensiones que las correlaciones policóricas dejan de tener mucho sentido. El grado de especificación errónea del modelo con correlaciones policóricas probablemente hace que su análisis sea bastante inútil. Sin embargo, no estoy seguro de por qué necesita esas correlaciones en primer lugar: si tiene una variable de resultado clara (calificación) y un montón de variables explicativas (características de diseño), necesita un análisis de regresión, no el análisis factorial.

StasK

El análisis de regresión de @StasK es mi objetivo final, pero tengo más de 100 variables explicativas y me gustaría reducirlo a un número más manejable.

Spencer Greenhalgh

Además, para tales problemas, la clasificación es un objetivo en sí mismo.

Pere

Respuestas:

El análisis de factor lineal es teóricamente , lógicamente solo para variables continuas . Si las variables no son continuas pero son, por ejemplo, dicotómicas, una forma para usted será admitir las variables continuas subyacentes detrás y declarar que las variables observadas son las subyacentes agrupadas o las verdaderas. No puede cuantificar una variable dicotómica en una escala sin un "tutor" extraño, pero aún puede inferir las correlaciones que serían si sus variables aún no hubieran sido agrupadas y fueran "originales" continuas normalmente distribuidas. Y este es el tetracóricocorrelaciones (o policóricas, si en lugar de binario tiene variables ordinales). Entonces, usar correlaciones tetracóricas (correlaciones de Pearson inferidas) en lugar de correlaciones Phi (correlaciones de Pearson observadas con datos dicotómicos) es un acto lógico.

Las correlaciones Phi calculadas en variables dicotómicamente agrupadas son muy sensibles al punto de corte (también conocido como "nivel de dificultad de la tarea") sobre el cual tuvo lugar la agrupación. Un par de variables podría esperar alcanzar el límite teórico solo cuando están agrupadas sobre el punto de corte equivalente. Cuanto más diferente era el punto de corte en ellos, más bajo es el límite máximo de posible entre ellos. (Este es el efecto general de la uniformidad de las distribuciones marginales en el rango posible para Pearson $r=1$ $r$ $r$ , pero en las variables dicotómicas este efecto es más agudo porque hay muy pocos valores para asumir.) Por lo tanto, las correlaciones phi en su matriz pueden verse como deflactadas desigualmente debido a distribuciones marginales contrastantes en las variables dicotómicas; no sabe si una correlación es más grande que otra "verdaderamente" o debido a los diferentes puntos de corte en estos dos pares de variables. El número de factores a extraer (siguiendo criterios como el "valor propio> 1" de Kaiser) se inflará: algunos "factores" extraídos son el resultado de la desigualdad, la diversidad de los puntos de corte, no factores latentes sustantivos. Esta es una razón práctica por la que no se utilizan correlaciones phi (al menos en su forma sin procesar).

Ha habido evidencia en estudios de simulación / binning de que el análisis factorial basado en correlaciones tetracóricas empeora si hay muchas correlaciones fuertes (> 0.7) en la matriz. La correlación tetracórica no es ideal: si los puntos de corte de las variables subyacentes correlacionadas están en los opuestos (y por lo tanto las distribuciones marginales en el dicotómico están sesgadas en sentido opuesto) mientras que la asociación subyacente es fuerte, el coeficiente tetracórico lo sobreestima aún más. Tenga en cuenta también que la matriz de correlación tetracórica no es necesariamente semidefinida positiva en muestras no grandes y, por lo tanto, podría necesitar corrección ("suavizado"). Aún así, es considerado por muchos una mejor manera que hacer un análisis factorial en coeficientes simples de Pearson (phi).

Pero, ¿por qué hacer un análisis factorial en datos binarios? Hay otras opciones, incluyendo rasgo latente / IRT (una forma de análisis factorial "logístico") y análisis de correspondencia múltiple (si ve sus variables binarias como categorías nominales).

Ver también:

Supuestos del análisis factorial lineal.
La escala de Pearson podría ser (pero no muy convincente) alternativa a la tetracótica para FA. $r$ $r$

ttnphns
fuente

Consulte también stats.stackexchange.com/a/219814/3277

ttnphns