"Variable ficticia" y "variable indicadora" son etiquetas que se usan con frecuencia para describir la pertenencia a una categoría con codificación 0/1; generalmente 0: no es miembro de la categoría, 1: miembro de la categoría.
El 26/11/2014, una búsqueda rápida en scholar.google.com (con comillas adjuntas) revela que la "variable ficticia" se usa en aproximadamente 318,000 artículos, y la "variable indicadora" se usa en aproximadamente 112,000 artículos. El término "variable ficticia" también tiene un significado en matemática no estadística de " variable ligada " que probablemente contribuye al mayor uso de "variable ficticia" en artículos indexados.
Mis preguntas vinculadas por temas:
- ¿Son estos términos siempre sinónimos (dentro de las estadísticas)?
- ¿Alguno de estos términos se aplica de manera aceptable a otras formas de codificación categórica (por ejemplo , codificación de efectos , codificación Helmert, etc. )?
- ¿Qué razones estadísticas o disciplinarias existen para preferir un término sobre el otro?
male
con valores1
o0
. Si hay una variable categórica con más de 2 categorías que luego se expande en variables indicadoras para la membresía en cada nivel, usaría "variables ficticias" para describir ese conjunto de variables indicadoras.sex
.male
, donde 1 significa verdadero (en este caso masculino) y 0 significa falso (en este caso femenino). Si uso el nombre de la variablesex
, tendré que buscar cómo codifiqué esa variable cada vez que regreso a ese conjunto de datos.Respuestas:
Yo diría que "variable ficticia" es una forma más general de referirse a (una de) las variables numéricas que representan (juntas representan) un predictor categórico; por lo tanto, el término se aplica también a aquellos utilizados en Helmert y codificación de efectos † . Esto se debe principalmente al uso general de "ficticio" para significar "suplente". "Variable del indicador" Me relaciono con las funciones del indicador ‡ , de modo que solo pueden ser uno o cero para indicar que tienen o no alguna propiedad; por lo tanto, el término se aplica solo a aquellos utilizados en la codificación de nivel de referencia ※ . Por supuesto, algunas personas usan "codificación ficticia" para significar "codificación de nivel de referencia"; presumiblemente tienen una definición más restringida de "variables ficticias", o al menos deberían tenerla.
† Y si no llamas a esos "tontos", ¿ cómo los llamas?
‡ Entonces, el dummy es una variable indicadora para cuando la i ésima persona u i es hombre (un miembro del conjunto M ): x i = 1 M ( u i ) = { 1 w h e n u i ∈ M 0 w h e n u i ∉ MXyo yo tuyo METRO
donde es la función indicadora de adhesión a M .1METRO( ⋅ ) METRO
※ O, como ha señalado @gung, nivel significa codificación.
fuente
fuente