Tengo un conjunto de datos de estudios de casos de proyectos para un nuevo tipo de método de investigación para que las agencias gubernamentales apoyen las actividades de toma de decisiones. Mi tarea es desarrollar un método de estimación basado en la experiencia pasada para proyectos futuros con fines de estimación.
Mi conjunto de datos está limitado a 50 casos. Tengo más de 30 predictores (potenciales) registrados y una variable de respuesta (es decir, horas tomadas para completar el proyecto).
No todos los predictores son significativos, usando técnicas de selección por pasos, espero que el número de variables de predicción esté en el rango de 5-10 variables. Aunque estoy luchando por obtener un conjunto de predictores utilizando los appraoches estándar en herramientas como PASW (SPSS).
Soy muy consciente de todo el material que habla sobre las reglas generales para los tamaños de muestra y las relaciones de predictores variables a casos. Mi dilema es que se han tardado cerca de 10 años en recolectar 50 casos tal como están, por lo que es tan bueno como sea posible.
Mi pregunta es ¿qué debo hacer para aprovechar al máximo este pequeño conjunto de muestras?
¿Estas son buenas referencias para tratar con pequeños conjuntos de smaple? ¿Cambios en la significación del valor p? ¿Cambios en los enfoques de selección por pasos? Uso de transformaciones como centrado o registro?
Cualquier consejo es apreciado.
fuente
glmnet
glmnet
glm