¿Estima la masa de fruta en una bolsa solo a partir de totales relacionados?

Un instructor en mi universidad planteó una pregunta como esta (no para la tarea ya que la clase terminó y yo no estaba en ella). No puedo entender cómo abordarlo.

La pregunta se refiere a 2 bolsas que contienen una variedad de diferentes tipos de frutas:

La primera bolsa contiene la siguiente fruta seleccionada al azar:

+ ------------- + -------- + --------- +
El | diámetro cm | masa g | ¿podrido? El |
+ ------------- + -------- + --------- +
El | 17,28 | 139,08 | 0 |
El | 6,57 | 91,48 | 1 |
El | 7,12 | 74,23 | 1 |
El | 16,52 | 129,8 | 0 |
El | 14,58 | 169,22 | 0 |
El | 6,99 | 123,43 | 0 |
El | 6,63 | 104,93 | 1 |
El | 6,75 | 103,27 | 1 |
El | 15,38 | 169,01 | 1 |
El | 7,45 | 83,29 | 1 |
El | 13,06 | 157,57 | 0 |
El | 6,61 | 117,72 | 0 |
El | 7,19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

La segunda bolsa contiene 6 frutas seleccionadas al azar de la misma tienda que la primera bolsa. La suma de sus diámetros es de 64,2 cm y 4 están podridos.

Dar una estimación de la masa de la segunda bolsa.

Puedo ver que parece haber dos tipos diferentes de fruta con diámetros y masas normalmente distribuidos, pero no sé cómo proceder.

regression estimation rutilusk
fuente

Pregunta interesante, pero datos extraños: las gravedades específicas varían de 0,78 a 0,05. ¿Quizás alguien confundió las decoraciones de espuma de poliestireno con fruta de verdad? :-)

whuber

La pregunta no dice de qué estaba hecha la fruta. Supongo que puede suponer que las bolsas en sí mismas no tienen peso. ¿Cómo resuelvo el problema?

rutilusk

El objetivo de mi comentario fue que al analizar cantidades tan pequeñas de datos desordenados, confiamos en el conocimiento de lo que significan los datos. Dado que estos números obviamente no describen ningún tipo conocido de "fruto", no podemos recurrir a ese conocimiento de dominio. (Por ejemplo, no tenemos ninguna base para suponer que alguna parte de estos datos deba "distribuirse normalmente"). Eso dificulta o imposibilita el desarrollo de respuestas razonables y puede generar controversia, ya que limita las formas en que Se puede evaluar el rendimiento de cualquier enfoque.

whuber

Pero la fruta de espuma de poliestireno no se pudre. Quizás los frutos son esferoides prolados, con "diámetro" medido a lo largo del eje largo. Parece que hay al menos dos tipos de fruta: por lo tanto, suponiendo gravedades específicas cercanas a una, la más pequeña tendría aproximadamente el tamaño y la forma de un limón; el más grande mide aproximadamente medio pie de largo y menos de 2 pulgadas de ancho. La dificultad con esta idea es que parece más natural describir el eje más corto como el "diámetro".

Scortchi - Restablece a Monica

Respuestas:

Comencemos trazando los datos y echémosles un vistazo. Esta es una cantidad muy limitada de datos, por lo que será algo ad hoc con muchos supuestos.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Así que estos son los datos, los puntos rojos representan frutas podridas:

frutas trazadas

Tienes razón al suponer que parece haber dos tipos de frutas. Los supuestos que hago son los siguientes:

El diámetro divide las frutas en dos grupos.
Las frutas con un diámetro mayor a 10 están en un grupo, otras en el grupo más pequeño.
Solo hay una fruta podrida en el gran grupo de frutas. Supongamos que si una fruta está en el grupo grande, estar podrido no afecta el peso. Esto es esencial, ya que solo tenemos un punto de datos en ese grupo.
Si la fruta es una fruta pequeña, estar podrido afecta la masa.
Supongamos que las variables diam y mass están normalmente distribuidas.

Debido a que se da que la suma del diámetro es de 64,2 cm, lo más probable es que dos frutos sean grandes y cuatro pequeños. Ahora hay 3 casos para el peso. Hay 2, 3 o 4 frutas pequeñas podridas ( una fruta grande podrida no afecta a la masa por suposición ). Entonces, ahora puede obtener límites en su masa calculando estos valores.

Podemos estimar empíricamente la probabilidad de que el número de frutos pequeños se pudra. Utilizamos las probabilidades para ponderar nuestras estimaciones de la masa, dependiendo del número de frutos podridos:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights)

Dándonos una estimación final de 691.5183g . Creo que tiene que hacer la mayor parte de las suposiciones que he hecho para llegar a una conclusión, pero creo que podría ser posible hacerlo de una manera más inteligente. También tomo muestras empíricamente para obtener la probabilidad del número de frutos pequeños podridos, eso es solo pereza y se puede hacer "analíticamente".

Gumeo
fuente

Gracias por tu contribución. Me parece que la mayoría de las afirmaciones que usted llama "supuestos" son realmente conclusiones basadas en su análisis exploratorio. Sería valioso analizar cómo sus resultados dependen de la precisión de esas conclusiones. En cualquier caso, ¡está claro que un conjunto de datos tan pequeño no puede soportar un resultado con siete cifras significativas! Sería especialmente útil proporcionar alguna evaluación de su posible error. Será relativamente grande, lo que sería importante saber.

whuber

@whuber gracias por el comentario, podría agregar algo más para estimar la variación más tarde en la noche. Lo más simple sería obtener estimaciones de error para la masa de los tres grupos que uso para el cálculo final, y calcular los intervalos de predicción basados en eso. Pero veo que OP ha estado inactivo durante un año, por lo que no espero que se acepte esta respuesta. Todavía creo que este ejemplo es un buen problema de "juguete" para ver cómo puedes obtener tan poca información.

Gumeo

Estoy tratando de sugerir que en realidad obtenga mucha menos información que la sugerida por su respuesta, porque depende de muchas conclusiones derivadas de datos que en sí mismas son altamente inciertas.

whuber

@whuber Sí, eso es completamente correcto. Pero tratar de estimar el error propagado por todos los supuestos / conclusiones que hago no es muy simple. También me influyó mucho el hecho de que la suma de los diámetros de las frutas en la segunda bolsa es de 64,2 cm y que OP menciona que podría haber dos grupos de frutas.

Gumeo

@whuber Pensaré en esto y lo tomaré como un desafío. ¡Revisaré esta pregunta más tarde!

Gumeo

Yo propondría el siguiente enfoque:

Genera todas las 6 tuplas que satisfacen las condiciones en 4 podridas. Son . ${6\choose 4}{7\choose 2}$
Seleccione de las tuplas generadas solo aquellas que satisfagan la condición del diámetro.
Calcule el peso promedio de las tuplas seleccionadas (promedio aritmético habitual).

Todo esto es manejable mediante un simple script.

Karel Macek
fuente

¿Por qué debería funcionar este enfoque? ¿Qué suposiciones hace? ¿Lo has intentado para ver si incluso puede producir una respuesta?

whuber

Los enfoques múltiples incluyen, desde el más simple hasta el complejo,

6 (masa media)
6 (volumen medio) (densidad media)
4 (masa podrida media) + 2 (masa no podrida media)
4 ((volumen medio podrido) + 2 (volumen medio no podrido)) (densidad media)
4 (volumen medio podrido) (densidad media podrida) + 2 (volumen medio no podrido) (densidad media no podrida)

. . .

métodos combinatorios

Los enfoques se organizan en orden de simplicidad de cálculo, no en orden de que ningún enfoque sea mejor, o que no sea bueno en absoluto. La selección de qué enfoque usar depende de qué características de la población se conocen o se asumen. Por ejemplo, si las masas de frutas en la población de la tienda están normalmente distribuidas e independientes de los diámetros y el estado de pudrición, se podría usar el primer enfoque más simple sin ninguna ventaja (o incluso desventajas del error de muestreo de múltiples variables) de usar enfoques más complejos . Si no son variables aleatorias distribuidas idénticamente independientes, entonces una elección más compleja dependiendo de la información conocida o supuesta sobre la población puede ser mejor.

Hax
fuente

¿Por qué alguno de estos es bueno? ¿Qué suposiciones hacen? ¿Cómo seleccionaría uno sobre el otro? (¿Están también en orden de bondad ascendente en algún sentido?)

whuber