"Variable ficticia" versus "variable indicadora" para datos nominales / categóricos

15

"Variable ficticia" y "variable indicadora" son etiquetas que se usan con frecuencia para describir la pertenencia a una categoría con codificación 0/1; generalmente 0: no es miembro de la categoría, 1: miembro de la categoría.

El 26/11/2014, una búsqueda rápida en scholar.google.com (con comillas adjuntas) revela que la "variable ficticia" se usa en aproximadamente 318,000 artículos, y la "variable indicadora" se usa en aproximadamente 112,000 artículos. El término "variable ficticia" también tiene un significado en matemática no estadística de " variable ligada " que probablemente contribuye al mayor uso de "variable ficticia" en artículos indexados.

Mis preguntas vinculadas por temas:

  1. ¿Son estos términos siempre sinónimos (dentro de las estadísticas)?
  2. ¿Alguno de estos términos se aplica de manera aceptable a otras formas de codificación categórica (por ejemplo , codificación de efectos , codificación Helmert, etc. )?
  3. ¿Qué razones estadísticas o disciplinarias existen para preferir un término sobre el otro?
Alexis
fuente
44
Tiendo a usar "variable indicadora" para condiciones binarias, por ejemplo, el sexo puede codificarse como malecon valores 1o 0. Si hay una variable categórica con más de 2 categorías que luego se expande en variables indicadoras para la membresía en cada nivel, usaría "variables ficticias" para describir ese conjunto de variables indicadoras.
Gregor - restablece a Mónica el
2
Creo que quiere decir que el sexo podría estar codificado como 1 o 0, el género es una construcción mucho más complicada. (para el caso, el sexo también puede ser más complicado);)
Alexis
2
punto bien tomado, editado a sex.
Gregor - restablece a Mónica el
2
Tiendo a llamar a tal variable indicadora male, donde 1 significa verdadero (en este caso masculino) y 0 significa falso (en este caso femenino). Si uso el nombre de la variable sex, tendré que buscar cómo codifiqué esa variable cada vez que regreso a ese conjunto de datos.
Maarten Buis
44
He escuchado varias historias de "variables ficticias" que son desafortunadas y desafortunadamente mal interpretadas por audiencias no técnicas que implican desdén o menosprecio. Eran lo suficientemente vergonzosos y convincentes como para volverme en contra del término. "indicador" es para mí claro y directo.
Nick Cox

Respuestas:

12

Yo diría que "variable ficticia" es una forma más general de referirse a (una de) las variables numéricas que representan (juntas representan) un predictor categórico; por lo tanto, el término se aplica también a aquellos utilizados en Helmert y codificación de efectos . Esto se debe principalmente al uso general de "ficticio" para significar "suplente". "Variable del indicador" Me relaciono con las funciones del indicador , de modo que solo pueden ser uno o cero para indicar que tienen o no alguna propiedad; por lo tanto, el término se aplica solo a aquellos utilizados en la codificación de nivel de referencia . Por supuesto, algunas personas usan "codificación ficticia" para significar "codificación de nivel de referencia"; presumiblemente tienen una definición más restringida de "variables ficticias", o al menos deberían tenerla.

† Y si no llamas a esos "tontos", ¿ cómo los llamas?

‡ Entonces, el dummy es una variable indicadora para cuando la i ésima persona u i es hombre (un miembro del conjunto M ): x i = 1 M ( u i ) = { 1 w h e n u iM 0 w h e n u iMXyoyotuyoMETRO

Xyo=1METRO(tuyo)={1whminorte tuyoMETRO0 0whminorte tuyoMETRO

donde es la función indicadora de adhesión a M .1METRO()METRO

※ O, como ha señalado @gung, nivel significa codificación.

Scortchi - Restablece a Monica
fuente
2
Eh ... ¿puedes proporcionar enlaces a algunos recursos que lo motiven? En mi experiencia, la "variable ficticia" se usa mucho para la codificación 0/1. No estoy seguro de que haya visto un maniquí como usted sugiere, y sé que otros lo usan en sentido contrario. Por ejemplo, Alkharusi, H. (2012) "Variables categóricas en el análisis de regresión: una comparación de la codificación ficticia y de efectos" International Journal of Education 4 (2): 202–210.
Alexis
2
No dije que "variable ficticia" no se usa para la codificación 0/1, solo que se puede usar en un sentido más general.
Scortchi - Restablece a Monica
1
De hecho, el mismo documento que cita dice que, usando la codificación de efectos, "las variables ficticias toman los valores 1, 0 y -1". (Por supuesto, creo que deberían haber llamado "codificación ficticia" otra cosa si van a decir eso.)
Scortchi - Restablecer a Monica
1
Te tengo ... en cuanto a la pregunta de tu superíndice con dagas, tiendo a llamarlas "variables categóricas usando la codificación XXX".
Alexis
2
Knuth lo explica mejor en arxiv.org/abs/math/9205211. Él atribuye la idea a KE Iverson. En resumen, no necesitamos inventar o invocar una función de indicador, sino seguir en una discusión formal lo que nuestro software hace por nosotros.
Nick Cox