El mejor método para crear tablas de crecimiento.

10

Tengo que crear gráficos (similares a los gráficos de crecimiento) para niños de 5 a 15 años (solo 5,6,7, etc.; no hay valores fraccionarios como 2.6 años) para una variable de salud que no sea negativa, continua y en el rango de 50-150 (con solo unos pocos valores fuera de este rango). Tengo que crear curvas de percentiles 90, 95 y 99 y también crear tablas para estos percentiles. El tamaño de la muestra es de aproximadamente 8000.

Revisé y encontré las siguientes formas posibles:

  1. Encuentre cuantiles y luego use el método loess para obtener una curva suave de estos cuantiles. El grado de suavidad se puede ajustar mediante el parámetro 'span'.

  2. Utilice el método LMS (Lambda-Mu-Sigma) (p. Ej., Utilizando gamlss o paquetes VGAM en R).

  3. Usa la regresión cuantil.

  4. Use la media y el DE de cada grupo de edad para estimar el percentil para esa edad y crear curvas de percentil.

¿Cuál es la mejor manera de hacerlo? Por "mejor" me refiero al método ideal, que es el método estándar para la creación de tales curvas de crecimiento y que sería aceptable para todos. O un método más fácil y sencillo de implementar, que puede tener algunas limitaciones, pero es un método más rápido y aceptable. (Por ejemplo, usar loess en valores de percentil es mucho más rápido que usar LMS del paquete gamlss).

Además, ¿cuál será el código R básico para ese método?

Gracias por tu ayuda.

rnso
fuente
2
Estás pidiendo el "mejor", que generalmente se encuentra entre difícil e imposible de discutir definitivamente. (La "mejor" medida del nivel es bastante difícil). Claramente ha vinculado su pregunta a los cambios de salud en los niños, pero sus criterios sobre "mejor" no son explícitos, en particular qué tipos o grados de suavidad son aceptables o inaceptables.
Nick Cox
Agradezco el intento, pero a) evidentemente no existe, de lo contrario, ¿por qué hay soluciones competitivas o por qué no es esto evidente en la literatura que está leyendo? El interés en este problema seguramente tiene décadas, si no siglos. Más fácil significa: más fácil de entender, más fácil de explicar a los médicos o profesionales de mentalidad no estadística en general, más fácil de implementar, ...? Sin duda, parezco quisquilloso, pero ¿por qué debería importarle la velocidad aquí? Ninguno de estos métodos es computacionalmente exigente.
Nick Cox
@ NickCox: he editado la pregunta de acuerdo con sus comentarios. Agradeceré una respuesta real.
rnso
1
Lo siento, pero no trabajo en este campo y creo que su pregunta es demasiado difícil de responder. Los comentarios existen porque las personas pueden ser incapaces o no están dispuestas a responder, pero tienen algo que decir. No escribo respuestas a pedido.
Nick Cox

Respuestas:

6

Existe una gran literatura sobre curvas de crecimiento. En mi opinión, hay tres enfoques "superiores". En los tres, el tiempo se modela como una spline cúbica restringida con un número suficiente de nudos (por ejemplo, 6). Este es un suavizador paramétrico con excelente rendimiento y fácil interpretación.

  1. Modelos clásicos de curva de crecimiento (mínimos cuadrados generalizados) para datos longitudinales con un patrón de correlación sensible como AR1 de tiempo continuo. Si puede demostrar que los residuos son gaussianos, puede obtener los MLE de los cuantiles utilizando las medias estimadas y la desviación estándar común.
  2. Regresión cuantil. Esto no es eficiente para no grande . Aunque la precisión no es óptima, el método hace suposiciones mínimas (porque las estimaciones para un cuantil no están conectadas con las estimaciones de un cuantil diferente) y es imparcial.norte
  3. Regresión ordinal. Esto trata el continuo como ordinal para ser robusto, utilizando modelos semiparamétricos como el modelo de probabilidades proporcionales. A partir de modelos ordinales, puede estimar la media y cualquier cuantil, este último solo si es continuo.YY
Frank Harrell
fuente
Cuando usó probabilidades proporcionales, ¿cómo acomodó la suposición PO (suponiendo que falló) con tantos niveles del resultado? Gracias.
julio
2
Incluso si falla, el modelo puede funcionar mejor que algunos de los otros modelos debido a la menor cantidad de suposiciones en general. O cambie a uno de los otros modelos ordinales de la familia de probabilidad acumulativa, como los riesgos proporcionales (log-log cumulative prob. Link).
Frank Harrell
1

Proceso de regresión gaussiana . Comience con el núcleo exponencial cuadrado e intente ajustar los parámetros a simple vista. Más adelante, si desea hacer las cosas correctamente, experimente con diferentes núcleos y use la probabilidad marginal para optimizar los parámetros.

Si desea más detalles de los que ofrece el tutorial vinculado anteriormente, este libro es excelente .

Andy Jones
fuente
Gracias por tu respuesta. ¿Cómo califica la regresión del proceso gaussiano en comparación con otros métodos mencionados? La segunda trama gaussiana en scikit-learn.org/0.11/auto_examples/gaussian_process/… parece muy similar a la segunda última trama en esta página de LOESS (regresión local): princeofslides.blogspot.in/2011/05/… . LOESS es mucho más fácil de realizar.
rnso
Personalmente, prefiero GPR para cualquier conjunto de datos que sea lo suficientemente pequeño como para permitirle ajustarlo. Además de ser mucho más "agradable" desde una perspectiva teórica, es más flexible, robusto y ofrece resultados probabilísticos bien calibrados. Habiendo dicho todo eso, si sus datos son densos y se comportan bien, entonces su audiencia probablemente no podrá distinguir entre LOESS y un GPR a menos que sean estadísticos.
Andy Jones
3
yX
1
@Nick: Mi consejo previsto era construir un modelo de sus datos y luego usar el modelo para construir las curvas de percentiles (suaves). Ahora que lo ha mencionado, sí, me perdí por completo el segundo componente (es decir, la pregunta real).
Andy Jones
1
1,96