¿Cuándo no puedo reemplazar una variable aleatoria con su media?

Una simplificación frecuente en el modelado y la simulación es reemplazar una variable aleatoria por su valor medio.

¿Cuándo conduciría esta simplificación a la conclusión incorrecta?

modeling mean random-variable Ankit Goyal
fuente

¿"Var" significa variable o varianza o valor en riesgo ?

Henry

Sería divertido comenzar un servicio que paga la suscripción de Netflix de sus miembros. Solo cargaríamos , donde se selecciona aleatoriamente en el dominio , entonces, sí ¡Sabes, Netflix gratis! Más adelante, ofreceremos a algunos clientes la opción de pagar .

| x | \frac{U S D}{m o n t h}

$\left|x\right|~\frac{\mathrm{USD}}{\mathrm{month}}$

x

$x$

[- 100, 100]

$\left[-100,100\right]$

x^{2} \frac{U S D}{m o n t h}

$x^2~\frac{\mathrm{USD}}{\mathrm{month}}$

Nat

Bueno, en un caso muy simple, si lo llevamos al extremo, podríamos perder casi toda la información que nos interesa. Considere una regresión de Y en X donde reemplazamos Y y X con su media. Cualquier información sobre la pendiente ahora se pierde.

Dason

¿Está preguntando sobre el reemplazo de valores perdidos, o está preguntando sobre el reemplazo de una variable aleatoria en un contexto específico (por ejemplo, hacer predicciones basadas en un modelo de efectos aleatorios)?

IWS

Respuestas:

Si reemplaza un valor faltante por una estimación puntual, ignora toda su variabilidad. Por lo tanto, no propagará toda la variabilidad original a su modelo. Las estimaciones de sus parámetros parecerán tener un error estándar demasiado bajo . Si hace inferencia, sus valores de p serán sesgados bajos. Sus intervalos de confianza serán demasiado estrechos. Si haces predicciones, tus intervalos de predicción serán demasiado estrechos.

En general: estará muy seguro de sus conclusiones.

Stephan Kolassa
fuente

¡Buena respuesta! Piense de esta manera: una variable aleatoria tiene una distribución. Se puede desplazar hacia la izquierda, hacia la derecha. Puedo ser bimodal, etc. Al reducir la variable a su valor medio, está eliminando toda esa información adicional (incertidumbre) y reemplazando una distribución (intervalos) por una sola estimación puntual.

Elevendollar

Si reemplaza un valor faltante por una estimación puntual, también está asumiendo que faltan datos al azar. El valor medio de la variable aleatoria podría no ser igual al valor medio de los datos cuando faltan.

Neil G

@NeilG lamentamos mucho, pero reemplazar un valor faltante por su media no significa directamente asumir que faltan datos al azar. Sobre todo porque la terminología, algo confusa, en torno a los datos faltantes considera que 'faltan al azar' son datos que faltan al azar condicional a otros datos, pero conocidos ( en.wikipedia.org/wiki/Missing_data ). En mi opinión, la forma en que se reemplazan los datos no implica nada sobre el razonamiento detrás de ellos. Ese razonamiento debe hacerse explícito y conducir a la forma adecuada de manejar los datos faltantes. Dicho esto, estoy totalmente de acuerdo con la respuesta de Stephan.

IWS

@IWS Está bien que los indicadores de falta estén condicionados a los datos observados. Falta al azar significa que los indicadores de falta dependen de los datos no observados. Si reemplaza la variable con su valor medio condicional a que se observe, es posible que no sea lo mismo que su valor medio incondicional, a menos que falten datos al azar.

Neil G

@NeilG ¿No quieres decir 'faltar completamente al azar', cuando escribes 'faltar al azar' en la oración final de tu último comentario? Si es así, estamos de acuerdo, pero yo solo estaba discutiendo acerca de la terminología. (vea la página wiki que puse en mi comentario anterior, siempre me enseñaron, leyeron y usaron esa terminología)

IWS

Además de los puntos de Stephan:

En casi cualquier aplicación en la que esté interesado en funciones no lineales de la variable aleatoria, la sustitución de la media generalmente introducirá sesgos y posiblemente resultados contradictorios. La velocidad promedio y la masa promedio de una partícula generalmente no serán consistentes con la energía cinética promedio, porque la energía escala con V ^ 2.
El valor medio puede incluso no ser un posible resultado para la variable aleatoria. Si mis posibles resultados son 0 "paciente muere" y 1 "paciente vive", probablemente no sea útil tener un modelo que describa al paciente como 0.1 "mayormente muerto pero ligeramente vivo".

Geoffrey Brent
fuente

Obligatorio: youtube.com/watch?v=xbE8E1ez97M

Alexis

@ Alexis pero por supuesto!

Geoffrey Brent

Un ejemplo de la vida real (relacionado con las dos respuestas que obtuvo), en los mercados financieros. El precio de una opción se basa en la probabilidad de que el precio de un activo supere (o disminuya) un nivel determinado.

Por ejemplo, el precio de una opción para comprar un activo a un precio de 100 cuando el valor esperado del activo es 80. Si sustituye la variable aleatoria (el precio del activo) por su media, obtendría un precio de cero (como nunca en 100 un activo que cuesta 80). Cuando se tiene en cuenta la estocasticidad del activo (y esa es la forma correcta de hacerlo), se obtiene un precio positivo, ya que existe cierta probabilidad de que el precio del activo supere los 100.

Juan Ignacio Gil
fuente