Se encuestó una muestra de población aleatoria. Se les preguntó si comen dieta vegetariana. Si respondieron que sí, también se les pidió que especificaran cuánto tiempo habían estado comiendo una dieta vegetariana sin interrupción. Quiero usar estos datos para calcular la duración promedio de la adherencia al vegetarianismo. En otras palabras, cuando alguien se vuelve vegetariano, quiero saber que, en promedio, se mantienen vegetarianos. Asumamos que:
- Todos los encuestados dieron respuestas correctas y precisas.
- El mundo es estable: la popularidad del vegetarianismo no está cambiando, la duración promedio de la adhesión tampoco está cambiando.
Mi razonamiento hasta ahora
Me resultó útil analizar un modelo de juguete del mundo, donde a principios de cada año dos personas se vuelven vegetarianas. Cada vez, uno de ellos permanece vegetariano durante 1 año y otro durante 3 años. Obviamente, la duración promedio de la adherencia en este mundo es (1 + 3) / 2 = 2 años. Aquí hay un gráfico que ilustra el ejemplo. Cada rectángulo representa un período de vegetarianismo:
Digamos que realizamos una encuesta a mediados del año 4 (línea roja). Obtenemos los siguientes datos:
Obtendríamos los mismos datos si realizáramos la encuesta en cualquier año, comenzando el año 3. Si solo promediamos las respuestas que obtenemos:
(2 * 0.5 + 1.5 + 2.5) / 4 = 1.25
Subestimamos porque suponemos que todos dejaron de ser vegetarianos justo después de la encuesta, lo que obviamente es incorrecto. Para obtener una estimación más cercana al promedio real de veces que estos participantes seguirían siendo vegetarianos, podemos suponer que, en promedio, informaron un tiempo aproximadamente a la mitad de su período de vegetarianismo y multiplicaron las duraciones informadas por 2. En una gran encuesta realizada al azar de la población (como la que estoy analizando), creo que esta es una suposición realista. Al menos daría un valor esperado correcto. Sin embargo, si duplicar es lo único que hacemos, obtenemos un promedio de 2.5, lo cual es una sobreestimación. Esto se debe a que mientras más tiempo la persona permanezca vegetariana, es más probable que esté en la muestra de vegetarianos actuales.
Entonces pensé que la probabilidad de que alguien esté en la muestra de vegetarianos actuales es proporcional a su duración de vegetarianismo. Para tener en cuenta este sesgo, traté de dividir el número de vegetarianos actuales por su duración de adhesión prevista:
Sin embargo, esto también da un promedio incorrecto:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 años
Daría la estimación correcta si el número de vegetarianos se dividiera por sus longitudes correctas de adherencia:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 años
Pero no funciona si uso longitudes de adherencia previstas y son todo lo que tengo en realidad. No sé qué más probar. Leí un poco sobre el análisis de supervivencia, pero no estoy seguro de cómo aplicarlo en este caso. Idealmente, también me gustaría poder calcular un intervalo de confianza del 90%. Algún consejo sería de gran aprecio.
EDITAR: Es posible que la pregunta anterior no tenga respuesta. Pero también hubo otro estudio que preguntó a una muestra aleatoria de personas si eran / eran vegetarianas y cuántas veces habían sido vegetarianas en el pasado. También sé la edad de todos en ambos estudios y algunas otras cosas. Quizás esta información se pueda usar junto con la encuesta de vegetarianos actuales para obtener el significado de alguna manera. En realidad, el estudio del que hablé es solo una pieza del rompecabezas, pero es muy importante y quiero sacarle más provecho.
fuente
Respuestas:
Código R que simula datos e implementa ambos métodos:
fuente
(He dudado en agregar esto, ya que parece que @JarleTufto ya ha dado un buen enfoque matemático; sin embargo, no soy lo suficientemente inteligente como para entender su respuesta, y ahora tengo curiosidad si es exactamente el mismo enfoque, o si El enfoque que describo a continuación tiene sus usos).
Lo que haría es adivinar una longitud promedio, y adivinar algunas distribuciones a su alrededor, y luego, para cada una, hacer una simulación de mi población y muestrearla regularmente.
Dijiste que asumir que la población total de vegetarianos no está cambiando, así que cada vez que mi modelo hace que alguien se detenga, se crea un nuevo vegetariano. Necesitamos ejecutar el modelo durante varios años simulados para asegurarnos de que se haya establecido, antes de que podamos comenzar a muestrear. Después de eso, creo que puede tomar muestras cada mes simulado (*) hasta que tenga suficiente para formar su intervalo de confianza del 90%.
*: o cualquier resolución que funcione con sus datos. Si las personas dieron su respuesta al año más cercano, el muestreo cada 6 meses es suficiente.
De todas sus conjeturas, usted elige la media y la distribución que (promediado sobre todas las muestras que tomó) le da el resultado más cercano a lo que dio su encuesta de la vida real.
Repetiría mis conjeturas varias veces, para enfocarme en la mejor coincidencia.
La mejor distribución no puede ser de un solo pico. Los ex vegetarianos en los que personalmente puedo pensar se detuvieron debido a cambios importantes en el estilo de vida (generalmente casarse / vivir con un país no vegetariano o en movimiento, o enfermarse gravemente y un médico sugiere que podría ser una dieta); Por otro lado está el poder del hábito: cuanto más tiempo haya sido vegetariano, más probabilidades tendrá de seguir siendo uno. Si sus datos le hubieran preguntado la edad y el estado de la relación, también podríamos incluirlo en la simulación anterior.
fuente