¿Cuándo debemos discretizar / bin variables / características independientes y cuándo no?
Mis intentos de responder la pregunta:
- En general, no debemos bin, porque binning perderá información.
- El binning en realidad aumenta el grado de libertad del modelo, por lo que es posible causar un ajuste excesivo después del binning. Si tenemos un modelo de "alto sesgo", el binning puede no ser malo, pero si tenemos un modelo de "alta varianza", debemos evitar el binning.
- Depende de qué modelo estamos usando. Si es un modo lineal, y los datos tienen muchos "valores atípicos", la probabilidad de agrupamiento es mejor. Si tenemos un modelo de árbol, entonces, valores atípicos y binning harán demasiada diferencia.
Estoy en lo cierto? ¿y qué más?
Pensé que esta pregunta debería hacerse muchas veces, pero no puedo encontrarla en el CV solo en estas publicaciones
¿Deberíamos bin variables continuas?
¿Cuál es el beneficio de romper una variable predictiva continua?
Respuestas:
Parece que también está buscando una respuesta desde un punto de vista predictivo, por lo que preparé una breve demostración de dos enfoques en R
A continuación, he dado el código para una función que comparará los dos métodos automáticamente para cualquier función de señal verdadera
Esta función creará conjuntos de datos de entrenamiento y prueba ruidosos a partir de una señal dada, y luego ajustará una serie de regresiones lineales a los datos de entrenamiento de dos tipos
cuts
modelo incluye predictores agrupados, formados segmentando el rango de datos en intervalos semiabiertos de igual tamaño, y luego creando predictores binarios que indican a qué intervalo pertenece cada punto de entrenamiento.splines
modelo incluye una expansión de base de spline cúbica natural, con nudos igualmente espaciados en todo el rango del predictor.Los argumentos son
signal
: Una función de una variable que representa la verdad a estimar.N
: El número de muestras a incluir tanto en los datos de entrenamiento como de prueba.noise
: La cantidad de ruido gaussiano aleatorio para agregar a la señal de entrenamiento y prueba.range
: El rango de losx
datos de entrenamiento y prueba , datos que se generan de manera uniforme dentro de este rango.max_paramters
: El número máximo de parámetros para estimar en un modelo. Este es el número máximo de segmentos en elcuts
modelo y el número máximo de nudos en elsplines
modelo.Tenga en cuenta que el número de parámetros estimados en el
splines
modelo es el mismo que el número de nudos, por lo que los dos modelos se comparan bastante.El objeto de retorno de la función tiene algunos componentes.
signal_plot
: Un gráfico de la función de señal.data_plot
: Un diagrama de dispersión de los datos de entrenamiento y prueba.errors_comparison_plot
: Un gráfico que muestra la evolución de la suma de la tasa de error al cuadrado para ambos modelos en un rango del número de parámetros estimados.Lo demostraré con dos funciones de señal. La primera es una ola de pecado con una tendencia lineal creciente superpuesta
Así es como evolucionan las tasas de error
El segundo ejemplo es una función de nuez que mantengo solo para este tipo de cosas, trazarla y ver
Y por diversión, aquí hay una aburrida función lineal
Puedes ver eso:
Por lo tanto, las splines siempre se deben preferir desde un punto de vista predictivo.
Código
Aquí está el código que usé para producir estas comparaciones. Lo he incluido todo en una función para que pueda probarlo con sus propias funciones de señal. Deberá importar las bibliotecas
ggplot2
ysplines
R.fuente
La agregación tiene un significado sustancial (ya sea que el investigador lo sepa o no).
Uno debe agrupar los datos, incluidas las variables independientes, en función de los datos en sí cuando se quiera:
A la hemorragia el poder estadístico.
Para sesgar las medidas de asociación.
Una literatura que comienza, creo, con Ghelke y Biehl (1934, definitivamente vale la pena leer, y sugiere algunas simulaciones por computadora lo suficientemente fáciles que uno puede ejecutar por sí mismo), y continúa especialmente en la literatura de 'problema de unidad de área modificable' (Openshaw , 1983; Dudley, 1991; Lee y Kemp, 2000) aclara ambos puntos.
A menos que uno tenga una teoría a priori de la escala de agregación (a cuántas unidades agregar) y la función de categorización de la agregación (qué observaciones individuales terminarán en qué unidades agregadas), uno no debe agregar. Por ejemplo, en epidemiología, nos preocupamos por la salud de las personas y la salud de las poblaciones . Los últimos no son simplemente colecciones aleatorias de los primeros, sino que se definen, por ejemplo, por límites geopolíticos, circunstancias sociales como la categorización racial-étnica, el estado carcelario y las categorías de historia, etc. (Ver, por ejemplo, Krieger, 2012)
Referencias
Dudley, G. (1991). Escala, agregación y el problema de la unidad de área modificable . [paredes de pago] The Operational Geographer, 9 (3): 28–33.
Gehlke, CE y Biehl, K. (1934). Ciertos efectos de la agrupación sobre el tamaño del coeficiente de correlación en el material del tramo censal . [con paredes de pago] Revista de la Asociación Americana de Estadística , 29 (185): 169-170.
Krieger, N. (2012). ¿Quién y qué es una "población"? Debates históricos, controversias actuales e implicaciones para comprender la “salud de la población” y rectificar las inequidades en salud. . The Milbank Quarterly , 90 (4): 634–681.
Lee, HTK y Kemp, Z. (2000). Razonamiento jerárquico y procesamiento analítico en línea de datos espaciales y temporales. . En Actas del 9º Simposio Internacional sobre Manejo de Datos Espaciales , Beijing, PR China. Unión Geográfica Internacional.
Openshaw, S. (1983). El problema de la unidad de área modificable. Conceptos y técnicas en geografía moderna . Geo Books, Norwich, Reino Unido.
fuente