¿Cómo escalar parcelas de violín para comparar?

Estoy tratando de dibujar violines y me pregunto si hay una mejor práctica aceptada para escalarlos en grupos. Aquí hay tres opciones que he intentado usar el mtcarsconjunto de datos R (Motor Trend Cars de 1973, que se encuentra aquí ).

Anchos iguales

Parece ser lo que hace el artículo original * y lo que vioplothace R ( ejemplo ). Bueno para comparar formas.

Parcelas de violín de igual área

Áreas iguales

Se siente bien ya que cada gráfica es una gráfica de probabilidad, por lo que el área de cada una debería ser igual a 1.0 en algún espacio de coordenadas. Es bueno para comparar la densidad dentro de cada grupo, pero parece más apropiado si las parcelas se superponen.

Parcelas de violín de igual ancho

Áreas ponderadas

Como área igual, pero ponderada por el número de observaciones. 6-cyl se vuelve relativamente más delgado ya que hay menos de esos autos. Bueno para comparar la densidad entre grupos.

Parcelas de violín de área ponderada

* Gráficos de violín: una sinergia de trazado de densidad de gráfico de caja (DOI: 10.2307 / 2685478)

distributions data-visualization nonparametric xan
fuente

El propósito de las parcelas determinará, en gran medida, qué soluciones son apropiadas. ¿Qué, entonces, estás tratando de mostrar con ellos?

whuber

@whuber Buena pregunta, aunque no tengo una respuesta directa. Estoy tratando de proporcionar un gráfico para EDA y estoy buscando un buen valor predeterminado general (y si las otras opciones son lo suficientemente útiles como para aparecer).

xan

Me gustaría sugerirle que controle las parcelas para adaptarlas a sus propósitos en lugar de aceptar algunos valores predeterminados.

whuber

Sugeriría que su versión de "áreas ponderadas" era "Buena para comparar subgrupos de una población", ya que podría tener sentido agregar los anchos para obtener la forma de toda la población.

Henry

Prefiero áreas iguales, para preservar el impacto visual de la forma de las distribuciones. Luego, complete el gráfico con termómetros que muestren tamaños de muestra, o simplemente use representaciones de texto de tamaños de muestra al lado de violines.

Frank Harrell

Respuestas:

Los diagramas de caja se utilizan para resúmenes esquemáticos de una distribución. Las gráficas de violín son solo gráficas de cajas en las que las cajas Q1, Q2 y Q3 se reemplazan por una amplia gama de cuantiles. Por esa razón, creo que la práctica aceptada es usar un ancho uniforme en todos los grupos.

Sin embargo, traes un buen punto: ¿cómo deben compararse las densidades entre los grupos? La respuesta depende de si está mirando a cada grupo como su propia población o como subpoblaciones.

$\Sigma_i P_i = 1$

Almiar
fuente

Las parcelas de violín se introdujeron originalmente y se definieron como trama de caja híbrida y traza de densidad. Un rápido Google muestra que, en la práctica, muchas parcelas hechas públicas como violines omiten la casilla y muchas no muestran ningún cuantil como tal. Entonces, las definiciones están abiertas aquí.

Nick Cox

Honestamente, creo que te estás acercando desde la dirección equivocada. Las tres parcelas claramente le dicen información con valor; de lo contrario, no estaría considerando qué parcela usar. El análisis exploratorio de datos se trata de comprender sus datos. Donde se ajusta a las expectativas. Donde no lo hace. Cómo se forma sobre múltiples variables.

El objetivo de hacer EDA es evaluar si nuestros valores predeterminados, ya sean supuestos de distribución o colinealidad, el modelo estadístico que se iba a utilizar, etc., están bien justificados. Como tal, el concepto de un EDA "predeterminado" es algo defectuoso.

Míralos a todos, o al menos a todas las tramas que se relacionan con la pregunta que pretendes hacer. No hay ninguna razón para meterse en "Qué es interesante" y "Qué voy a ignorar" en la etapa EDA. Y si solo estamos alimentando los datos a través de los valores predeterminados, no es realmente EDA en primer lugar.

Fomite
fuente

+1 para comentarios esclarecedores sobre EDA, aunque todavía no está claro (para mí) si el OP está después de EDA o no ...

chl

@chl Algunos de los comentarios del OP sugieren que eso es lo que busca. Si es simplemente "cuál de estos es más útil", la respuesta que temo se convierte en un "bien, aún más ambiguo", ¿qué quieres mostrar?

Fomite

Ah, me perdí ese comentario ... Entonces su respuesta vale un +1 nuevamente, pero no puedo :(

chl

¿Y qué hay del ancho de banda? ¿Pensaste en eso?

Si utiliza la configuración predeterminada de su Software para obtener el pdf, lo más probable es que utilice la regla general para obtener el ancho de banda óptimo de un núcleo gaussiano. Este 'ancho de banda óptimo' podría diferir entonces para cada subconjunto. Ahora pregúntese, ¿las formas siguen siendo comparables? Podría ser que uno se encuentra midiendo la misma variable (estimación de densidad del núcleo) con estándares dobles.

Para la estimación de la densidad del núcleo, se han desarrollado reglas claras para obtener el ancho de banda correcto (algún tipo de validación cruzada), pero para las gráficas de violín se ignoran en su mayoría. Puede ser importante cuando los tamaños de muestra difieren mucho.

Estoy teniendo este problema ahora mismo. ¿Qué piensa usted al respecto? ¿Cómo lo resuelves? Cualquier comentario es muy apreciado.

Holger Hoffmann
fuente