¿Deberían los tipos de datos (nominal / ordinal / intervalo / relación) realmente considerarse tipos de variables?

Entonces, por ejemplo, aquí están las definiciones que obtengo de los libros de texto estándar

Variable: característica de la población o muestra. ex. Precio de una acción o calificación en una prueba

Datos - valores observados reales

Entonces, para un informe de dos columnas [Nombre | Ingresos] los nombres de columna serían las variables y los valores reales observados {dave | 100K}, {jim | 200K} serían los datos

Entonces, si digo que la columna [Nombre] son datos nominales y que [ingresos] son datos de relación, ¿no sería más exacto describirlos como un tipo de variable en lugar de un tipo de datos como lo hacen la mayoría de los libros de texto? Entiendo que esto podría ser semántica, y está bien, eso es todo lo que hay. Pero me temo que podría estar perdiendo algo aquí.

dataset ordinal-data categorical-data ratio Usuario 42
fuente

No me parece una diferencia significativa; Consideraría cualquier fraseo aceptable, personalmente. Sin embargo, la definición de "variable" parece un poco desagradable.

Nick Stauner

@ Nick Creo que si traducimos la "característica" coloquial a la matemática "función de valor real", obtenemos parte de la definición de una variable aleatoria. (La parte que falta, por supuesto, es la mensurabilidad con respecto a un campo sigma en la población). Sin embargo, normalmente traducimos "característica de una muestra" en el término técnico estadística : tal vez a eso se refiere como un "poco fuera". Con estas traducciones, las variables no tienen "tipos" en absoluto en el sentido de Stevens (solo podemos distinguir las distribuciones discretas de las continuas ), pero algunos datos sí pueden.

whuber

La tipología de escala de Stevens no es necesariamente una característica inherente de las variables, ni siquiera de los datos en sí, sino de cómo tratamos la información, de lo que estamos usando para significar .

En algunas circunstancias, exactamente el mismo valor puede considerarse relación, intervalo, ordinal o nominal, dependiendo de lo que estemos haciendo con él; es una cuestión de qué significado le damos a los valores, que pueden cambiar de un análisis a otro. La tipología de Stevens tiene algún valor, pero no sirve para ser demasiado prescriptivo al respecto.

Este tema de la importancia de la escala como significado se remonta al menos a Lord (1953), quien ofreció un ejemplo donde había interpretaciones tanto nominales como de intervalo del mismo conjunto de números.

Este punto fue aún más claro por Velleman y Wilkinson (1993), quienes ofrecen un ejemplo de personas que reciben boletos numerados consecutivos al ingresar a una recepción con un premio otorgado a uno de los boletos; dependiendo del uso que se haga de los números en los boletos, tienen interpretaciones en las cuatro escalas.

Entonces, por ejemplo, "¿gané?" ¿Es una pregunta tratar el número como nominal, mientras que 'llegué demasiado temprano para obtener el boleto ganador?' es una pregunta que lo trata como ordinal; por otro lado (y no creo que este esté en el periódico) usando 5 números de boleto al azar para estimar el número de personas en la sala los trataría como una relación (por ejemplo, si hubiera 4 números sorteados al azar que obtuvieron premios de consolación, tendrías 5 números aleatorios en total para estimar la asistencia total).

Argumentan que "un buen análisis de datos no supone tipos de datos", "las categorías de Stevens no describen atributos fijos de datos", "las categorías de Stevens son insuficientes para describir escalas de datos" y "los procedimientos estadísticos no pueden clasificarse según los criterios de Stevens" (de hecho cada declaración es también un título de sección).

Tukey también ofreció críticas en varios lugares (por ejemplo, en el capítulo 5 del libro de Mosteller y Tukey, Análisis y regresión de datos de 1977 ); Mosteller y Tukey ofrecieron una tipología: nombres , grados (etiquetas ordenadas), rangos (comenzando desde 1, que puede representar el más grande o el más pequeño), fracciones contadas (delimitadas por cero y uno, estos incluyen porcentajes), recuentos (no negativos enteros), cantidades (números reales no negativos), saldos (valores ilimitados, positivos o negativos).

En mi propio trabajo, he visto situaciones en las que los problemas graves con el análisis fueron causados por personas que no apreciaban la gran diferencia entre las variables relacionadas con los niveles (a veces llamadas variables de 'stock') y los flujos ; un ejemplo simple de estos tipos es la diferencia en los tipos de análisis apropiados para las cantidades de agua realmente en un tanque de almacenamiento en cada una de una secuencia de períodos, y la cantidad de agua que fluye hacia él. Estos (en algunos de esos casos) serían subcategorías del tipo de ' cantidades ' de Mosteller y Tukey (y en esos mismos casos, ambas variables de relación en el esquema de Stevens), lo que indica que los problemas de tipología pueden ser bastante sutiles, pero aún puede tener un impacto crítico en los análisis apropiados.

PFVelleman y L.Wilkinson (1993),
"Las tipologías nominales, ordinales, de intervalo y de relación son engañosas",
The American Statistician , vol. 47 no.1 pp.65-72

(una versión funcional parece estar disponible en la página web del 2º autor aquí )

Lord, F. (1953),
"Sobre el tratamiento estadístico de los números de fútbol",
American Psychologist , 8 , pp.750-751

(El año de este documento se da erróneamente en las referencias de la versión del documento de Velleman y Wilkinson al que me vinculé, pero que se menciona correctamente en el cuerpo del documento)

Glen_b -Reinstate a Monica
fuente

Gracias. Respuesta muy completa. Estaba pensando en ese sentido, pero cuando investigo estas cosas muchas veces hacen que parezca que es concreto y se ha llegado a un consenso. Por eso terminé aquí.

Usuario 42

La tipología de Stevens ha sido debatida y disputada desde que se publicó por primera vez. Es un marco útil a veces, no un teorema.

Glen_b -Reinstale Monica

¿Hay algún "nuevo favorito" además de Stevens y Mosteller? En el ejemplo de niveles / flujos, si te entiendo correctamente, ¿ambos tienen el mismo tipo, pero necesitan ser tratados de manera diferente? ¿Puedes explicar esta diferencia? ¿Y cómo encajaría, por ejemplo, la transformación logarítmica de un valor en esta tipología? Gracias.

Erich Schubert

1. No conozco ningún intento reciente de hacer uno, y creo que no son necesariamente útiles, ya que tienden a calzar a las personas en análisis menos apropiados (ver el artículo de Lord para un ejemplo de juguete, pero las consecuencias para los análisis son muy real: esas listas de análisis por tipo provocan un sin fin de análisis estadísticos terribles, al tiempo que eliminan vastas extensiones de estadísticas de la posibilidad de consideración en situaciones apropiadas). ..

ctd

ctd ... 2. Un ejemplo de cómo los niveles y los flujos son bastante diferentes: tenga en cuenta que si observa el nivel cada día, el nivel de hoy sería el nivel anterior más el flujo de entrada o salida (o la suma de ambos , si ambos son posibles). Por lo tanto, las mediciones de nivel son necesariamente dependientes, a menudo altamente. No tiene sentido tratarlos como si fueran independientes, pero veo que la gente lo hace todo el tiempo. 3. No estoy seguro de lo que estás preguntando con el registro. ¿Puedes ser más explícito sobre eso? ¿Qué tipología (tenga en cuenta que menciono más de una)?

Glen_b -Reinstate Monica

¿Deberían los tipos de datos (nominal / ordinal / intervalo / relación) realmente considerarse tipos de variables?

Respuestas: