¿Estoy buscando una distribución de mejor comportamiento para la variable independiente en cuestión, o para reducir el efecto de los valores atípicos, o algo
Estrategias de modelado de regresión
¿Estoy buscando una distribución de mejor comportamiento para la variable independiente en cuestión, o para reducir el efecto de los valores atípicos, o algo
Me pregunto cuál es el valor de tomar una variable predictora continua y dividirla (por ejemplo, en quintiles), antes de usarla en un modelo. Me parece que al agrupar la variable perdemos información. ¿Es esto solo para que podamos modelar efectos no lineales? Si mantenemos la variable...
Dado que RF puede manejar la no linealidad pero no puede proporcionar coeficientes, ¿sería prudente utilizar un bosque aleatorio para reunir las características más importantes y luego conectar esas características en un modelo de regresión lineal múltiple para obtener sus coeficientes?...
¿Es posible sobreajustar un modelo de regresión logística? Vi un video que decía que si mi área bajo la curva ROC es superior al 95%, entonces es muy probable que se ajuste demasiado, pero ¿es posible sobreajustar un modelo de regresión
Reflexiono sobre la discusión en torno a esta pregunta y, en particular, sobre el comentario de Frank Harrell de que la estimación de la varianza en un modelo reducido (es decir, uno a partir del cual se probaron y rechazaron varias variables explicativas) debería usar los grados de libertad...
Como todos sabemos, hay 2 métodos para evaluar el modelo de regresión logística y están probando cosas muy diferentes. Poder de predicción: Obtenga una estadística que mida qué tan bien puede predecir la variable dependiente en función de las variables independientes. Los conocidos Pseudo R ^ 2...
Supongamos que he entrenado varios modelos en el conjunto de entrenamiento, elija el mejor usando el conjunto de validación cruzada y el rendimiento medido en el conjunto de prueba. Así que ahora tengo un mejor modelo final. ¿Debo volver a entrenarlo con todos mis datos disponibles o enviar una...
Además de algunas circunstancias únicas en las que debemos comprender absolutamente la relación media condicional, ¿cuáles son las situaciones en las que un investigador debería elegir OLS en lugar de la Regresión Cuantil? No quiero que la respuesta sea "si no sirve de nada entender las relaciones...
Dediqué mucho tiempo al desarrollo de métodos y software para validar modelos predictivos en el dominio estadístico frecuentista tradicional. Al poner en práctica más ideas bayesianas y enseñar, veo algunas diferencias clave que aceptar. Primero, el modelo predictivo bayesiano le pide al analista...
Los métodos de selección de variables algorítmicas escalonadas tienden a seleccionar modelos que sesgan más o menos todas las estimaciones en los modelos de regresión ( ββ\beta y sus SE, valores p , estadísticas F , etc.), y tienen la misma probabilidad de excluir predictores verdaderos como...
Frank Harrell ha comenzado un blog ( Pensamiento estadístico) . En su publicación principal , enumera algunas características clave de su filosofía estadística. Entre otros artículos, incluye: Convertir el tamaño de la muestra en una variable aleatoria cuando sea posible ¿Qué significa...
Esta es mi primera publicación en StackExchange, pero la he estado utilizando como recurso durante bastante tiempo, haré todo lo posible para usar el formato apropiado y realizar las ediciones apropiadas. Además, esta es una pregunta de varias partes. No estaba seguro de si debía dividir la...
En el análisis discriminante, la variable dependiente es categórica, pero ¿puedo usar una variable categórica (por ejemplo, estado residencial: rural, urbano) junto con alguna otra variable continua como variable independiente en el análisis discriminante
Después de buscar una aclaración sobre los coeficientes del modelo lineal aquí , tengo una pregunta de seguimiento relativa a los no significativos (valor p alto) para los coeficientes de los niveles de factores. Ejemplo: si mi modelo lineal incluye un factor con 10 niveles, y solo 3 de esos...
Usando estos datos: head(USArrests) nrow(USArrests) Puedo hacer un PCA de esta manera: plot(USArrests) otherPCA <- princomp(USArrests) Puedo obtener los nuevos componentes en otherPCA$scores y la proporción de varianza explicada por componentes con summary(otherPCA) Pero, ¿qué sucede si...
Estoy confundido con la suposición de linealidad al logit para las variables predictoras continuas en el análisis de regresión logística. ¿Necesitamos verificar la relación lineal mientras buscamos predictores potenciales usando un análisis de regresión logística univariable? En mi caso, estoy...
La coincidencia de puntaje de propensión se usa para hacer inferencias causales en estudios observacionales (ver el artículo de Rosenbaum / Rubin ). ¿Cuál es la simple intuición detrás de por qué funciona? En otras palabras, ¿por qué si nos aseguramos de que la probabilidad de participar en el...
Supongamos que tenemos covariables y una variable de resultado binaria . Algunas de estas covariables son categóricas con múltiples niveles. Otros son continuos. ¿Cómo elegirías el "mejor" modelo? En otras palabras, ¿cómo elige qué covariables incluir en el modelo?nnnx1,…,xnx1,…,xnx_1, \dots,...
Uno de los supuestos de la regresión logística es la linealidad en el logit. Entonces, una vez que tengo mi modelo en funcionamiento, pruebo la no linealidad con la prueba Box-Tidwell. Uno de mis predictores continuos (X) ha dado positivo por no linealidad. ¿Qué se supone que debo hacer a...
Actualmente me estoy enseñando cómo hacer la clasificación, y específicamente estoy mirando tres métodos: máquinas de vectores de soporte, redes neuronales y regresión logística. Lo que intento entender es por qué la regresión logística funcionaría mejor que las otras dos. Desde mi comprensión de...