Estoy tratando de dibujar violines y me pregunto si hay una mejor práctica aceptada para escalarlos en grupos. Aquí hay tres opciones que he intentado usar el mtcars
conjunto de datos R (Motor Trend Cars de 1973, que se encuentra aquí ).
Anchos iguales
Parece ser lo que hace el artículo original * y lo que vioplot
hace R ( ejemplo ). Bueno para comparar formas.
Áreas iguales
Se siente bien ya que cada gráfica es una gráfica de probabilidad, por lo que el área de cada una debería ser igual a 1.0 en algún espacio de coordenadas. Es bueno para comparar la densidad dentro de cada grupo, pero parece más apropiado si las parcelas se superponen.
Áreas ponderadas
Como área igual, pero ponderada por el número de observaciones. 6-cyl se vuelve relativamente más delgado ya que hay menos de esos autos. Bueno para comparar la densidad entre grupos.
* Gráficos de violín: una sinergia de trazado de densidad de gráfico de caja (DOI: 10.2307 / 2685478)
Respuestas:
Los diagramas de caja se utilizan para resúmenes esquemáticos de una distribución. Las gráficas de violín son solo gráficas de cajas en las que las cajas Q1, Q2 y Q3 se reemplazan por una amplia gama de cuantiles. Por esa razón, creo que la práctica aceptada es usar un ancho uniforme en todos los grupos.
Sin embargo, traes un buen punto: ¿cómo deben compararse las densidades entre los grupos? La respuesta depende de si está mirando a cada grupo como su propia población o como subpoblaciones.
fuente
Honestamente, creo que te estás acercando desde la dirección equivocada. Las tres parcelas claramente le dicen información con valor; de lo contrario, no estaría considerando qué parcela usar. El análisis exploratorio de datos se trata de comprender sus datos. Donde se ajusta a las expectativas. Donde no lo hace. Cómo se forma sobre múltiples variables.
El objetivo de hacer EDA es evaluar si nuestros valores predeterminados, ya sean supuestos de distribución o colinealidad, el modelo estadístico que se iba a utilizar, etc., están bien justificados. Como tal, el concepto de un EDA "predeterminado" es algo defectuoso.
Míralos a todos, o al menos a todas las tramas que se relacionan con la pregunta que pretendes hacer. No hay ninguna razón para meterse en "Qué es interesante" y "Qué voy a ignorar" en la etapa EDA. Y si solo estamos alimentando los datos a través de los valores predeterminados, no es realmente EDA en primer lugar.
fuente
¿Y qué hay del ancho de banda? ¿Pensaste en eso?
Si utiliza la configuración predeterminada de su Software para obtener el pdf, lo más probable es que utilice la regla general para obtener el ancho de banda óptimo de un núcleo gaussiano. Este 'ancho de banda óptimo' podría diferir entonces para cada subconjunto. Ahora pregúntese, ¿las formas siguen siendo comparables? Podría ser que uno se encuentra midiendo la misma variable (estimación de densidad del núcleo) con estándares dobles.
Para la estimación de la densidad del núcleo, se han desarrollado reglas claras para obtener el ancho de banda correcto (algún tipo de validación cruzada), pero para las gráficas de violín se ignoran en su mayoría. Puede ser importante cuando los tamaños de muestra difieren mucho.
Estoy teniendo este problema ahora mismo. ¿Qué piensa usted al respecto? ¿Cómo lo resuelves? Cualquier comentario es muy apreciado.
fuente