Alternativa a las parcelas de tamizado / mosaico para tablas de contingencia

17

Una vez me topé con un tipo de trama de datos categóricos (es decir, tablas de contingencia) en Internet, lo que realmente me gustó, pero nunca lo volví a encontrar, y ni siquiera sé cómo se llama. Era esencialmente como un diagrama de tamiz, en el que las alturas de fila y los anchos de columna se escalaban en relación con las probabilidades marginales. Por lo tanto, cada cuadro se ajustó a la frecuencia relativa esperada bajo independencia. Sin embargo, se diferenciaba de un diagrama de tamiz en que, en lugar de trazar el sombreado cruzado dentro de cada cuadro, trazaba un punto (como en un diagrama de dispersión) en una ubicación elegida al azar de un uniforme bivariado para cada observación. De esta manera, la densidad de los puntos refleja qué tan bien los conteos observados coinciden con los conteos esperados. Es decir, si la densidad fuera similar en cada cuadro, el modelo nulo es razonable, ) podría no ser muy probable bajo el modelo nulo. Debido a que los puntos se trazan en lugar de sombrear, existe una correspondencia simple e intuitiva entre el elemento trazado y el recuento observado, lo cual no es necesariamente cierto para los gráficos de tamiz (ver más abajo). Además, la colocación aleatoria de los puntos le da al argumento una sensación 'orgánica'. Además, el color podría usarse para resaltar cuadros / celdas que difieren fuertemente del modelo nulo, y una matriz de trazado podría usarse para examinar las relaciones de pares entre muchas variables diferentes, de modo que pueda incorporar las ventajas de los trazados similares. yo,j

  • ¿Alguien sabe cómo se llama esta trama?
  • ¿Hay un paquete / función que haga esto fácilmente en R u otro software (por ejemplo, Mondrian)? No puedo encontrar nada igual en vcd . Por supuesto, podría estar codificado desde cero, pero eso sería un dolor.

Aquí hay un ejemplo simple de una gráfica de tamiz, observe que es fácil ver cómo los recuentos esperados para las diferentes categorías deberían desarrollarse bajo el modelo nulo, pero es difícil conciliar el sombreado con los números reales, produciendo una gráfica que no es bastante tan fácil de leer y estéticamente horrible:

    B ~B
 A 38  4
~A  3 19

ingrese la descripción de la imagen aquí
Para lo que vale, un diagrama de mosaico tiene una especie de problema opuesto: aunque es más fácil ver qué celdas tienen 'demasiados' o 'muy pocos' recuentos (en relación con el modelo nulo), es más difícil reconocer cuáles son las relaciones entre los recuentos esperados habrían sido. Específicamente, los anchos de columna se escalan en relación con la probabilidad marginal, pero las alturas de las filas no, lo que hace que esa información sea casi imposible de extraer.
ingrese la descripción de la imagen aquí
y ahora para algo completamente diferente...

  • ¿Alguien sabe de dónde viene la convención de usar azul para 'demasiados' y rojo para 'muy pocos'? Esto siempre ha sido contradictorio para mí. Me parece que la densidad excepcionalmente alta (o demasiadas observaciones) va con calor , y la baja densidad va con frío , y que (al menos en la iluminación del escenario) los rojos son cálidos y los azules son fríos .

Actualización: si no recuerdo mal, la trama que vi estaba en el pdf de un capítulo (introducción o capítulo 1) de un libro que se puso a disposición gratuitamente en línea como un avance de marketing. Aquí hay una versión aproximada de la idea que codifiqué desde cero:
ingrese la descripción de la imagen aquí
incluso con esta versión cruda, creo que es más fácil de leer que la trama del tamiz, y de alguna manera más fácil que la trama del mosaico (por ejemplo, es más fácil reconocer cuáles son las relaciones entre las frecuencias celulares estaría bajo independencia). Sería bueno tener una función que: a. haría esto automáticamente con cualquier tabla de contingencia, b. podría usarse como un bloque de construcción de una matriz de parcela, y c. tendría las bonitas características que vienen con las parcelas anteriores (como la leyenda de residuos estandarizados en la trama de mosaico).

gung - Restablece a Monica
fuente
Entonces, ¿esencialmente quieres un diagrama de mosaico con un tipo diferente de relleno? ¿La Rfunción assocplotse acerca a lo que quieres decir? Si no, apuesto a que un Rprogramador podría modificar eso o mosaicplothacer lo que quieras.
Peter Flom - Restablece a Monica
1
Referencias relacionadas de interés, Sombreados basados ​​en residuos para visualizar la independencia (condicional) ( Zeileis et al. 2007 ), PDF aquí , y otro hilo aquí sobre la visualización de tablas de contingencia con algunas referencias. Creo que el artículo de Zeileis tiene una buena discusión sobre el color que puede responder a su última pregunta (puede ser bueno leer detenidamente las referencias para ver si también citan la tabla de la que está hablando).
Andy W
Es lo contrario, @PeterFlom, quiero esencialmente un diagrama de tamiz con un tipo diferente de relleno. Alternativamente, podría decir que quiero un diagrama de mosaico donde los cuadros que se muestran se escalan en relación con las frecuencias esperadas bajo independencia (y posiblemente también un tipo diferente de relleno).
gung - Restablece a Monica
"¿Alguien sabe de dónde viene la convención de usar azul para 'demasiados' y rojo para 'muy pocos'? Esto siempre ha sido contradictorio para mí". Buen punto. De hecho, es contra-intuitivo. El espectro de luz va aproximadamente del azul a la izquierda (asociado con longitudes de onda más pequeñas) al rojo a la derecha (asociado con longitudes de onda más grandes). Las exhibiciones de mosaico parecen revertir esto en su cabeza ...
landroni
La idea del diagrama de tamiz es que el número de cajas en cada celda es proporcional a la frecuencia observada, por lo que la densidad relativa muestra una frecuencia mayor o menor a la esperada. Si no le gustan los colores, puede cambiarlos fácilmente de los valores predeterminados. Si no le gusta la función de sombreado de tamiz predeterminada, puede escribir fácilmente la suya, por ejemplo, shading.points()para hacer lo que quiera, dentro del marco de strucplot que se citó anteriormente y está disponible como una viñeta en el vcdpaquete.
user101089

Respuestas:

15

El libro que describió suena como 'Visualizando datos categóricos', Michael Friendly. El gráfico descrito en el primer capítulo que parece coincidir con su solicitud se describió como un tipo de modelo conceptual para visualizar datos de la tabla de contingencia (descrito libremente por el autor como un modelo de presión dinámica con densidad de observación), y se puede ver en la vista previa de Google para Ch 1. El libro está dirigido a usuarios de SAS.

Aquí se hace referencia a un documento sobre el tema: www.datavis.ca/papers/koln/kolnpapr.pdf

'Modelos conceptuales para visualizar datos de tablas de contingencia', Michael Friendly.

http://i47.tinypic.com/148n5n7.jpg

ingrese la descripción de la imagen aquí

* incidentalmente, el autor también figura como uno de los autores del paquete vcd (ya que fue inspirado específicamente por su libro mencionado anteriormente), tal vez podría preguntarle directamente si hay una modificación simple a una de las funciones integradas que es No es evidente.

** El esquema de coloración parece relacionar el color azul con las desviaciones positivas de la independencia y el rojo para las desviaciones negativas. Aunque el esquema rojo tiene sentido en ese contexto, tal vez hubiera sido más apto haber usado el verde para representar desviaciones positivas.

http://www.datavis.ca/papers/asa92.html

palmadita
fuente
2
Buen trabajo, el misterio está resuelto! De hecho, necesito comprar el libro en lugar de previsualizarlo en varios tid-bits y hacer que mi biblioteca me envíe capítulos de vez en cuando. En mi opinión, esta forma de visualización me recuerda mucho a lo que los cartógrafos llaman "mapas de puntos", y uno podría utilizar literatura a partir de ahí para justificar cómo los puntos son una mejor herramienta de visualización que las líneas y los sombreados. También es una buena literatura en términos de ubicaciones preferenciales de los puntos.
Andy W
Esto me da un buen comienzo. Gracias por tu ayuda.
gung - Restablece a Monica
1

Tal vez no sea lo que viste, pero para la visualización de las salidas esperadas bajo correspondencia de independencia, las parcelas están bien motivadas.

http://www.jstatsoft.org/v20/i03/

(Por otro lado, el libro de SAS y M Friendly se equivocó sobre el ajuste recomendado y muchas de las parcelas tenían artefactos en ellas y esto puede haber distraído su valor percibido).

Phaneron
fuente
Gracias por su ayuda, me gustan las tramas de correspondencia. ¿Puede decir más sobre este ajuste recomendado que se equivocó? ¿Qué ajuste fue? ¿Cómo fue inexacto? ¿Y qué tenía de malo las tramas?
gung - Restablecer Monica