Entonces, por ejemplo, aquí están las definiciones que obtengo de los libros de texto estándar
Variable: característica de la población o muestra. ex. Precio de una acción o calificación en una prueba
Datos - valores observados reales
Entonces, para un informe de dos columnas [Nombre | Ingresos] los nombres de columna serían las variables y los valores reales observados {dave | 100K}, {jim | 200K} serían los datos
Entonces, si digo que la columna [Nombre] son datos nominales y que [ingresos] son datos de relación, ¿no sería más exacto describirlos como un tipo de variable en lugar de un tipo de datos como lo hacen la mayoría de los libros de texto? Entiendo que esto podría ser semántica, y está bien, eso es todo lo que hay. Pero me temo que podría estar perdiendo algo aquí.
fuente
Respuestas:
La tipología de escala de Stevens no es necesariamente una característica inherente de las variables, ni siquiera de los datos en sí, sino de cómo tratamos la información, de lo que estamos usando para significar .
En algunas circunstancias, exactamente el mismo valor puede considerarse relación, intervalo, ordinal o nominal, dependiendo de lo que estemos haciendo con él; es una cuestión de qué significado le damos a los valores, que pueden cambiar de un análisis a otro. La tipología de Stevens tiene algún valor, pero no sirve para ser demasiado prescriptivo al respecto.
Este tema de la importancia de la escala como significado se remonta al menos a Lord (1953), quien ofreció un ejemplo donde había interpretaciones tanto nominales como de intervalo del mismo conjunto de números.
Este punto fue aún más claro por Velleman y Wilkinson (1993), quienes ofrecen un ejemplo de personas que reciben boletos numerados consecutivos al ingresar a una recepción con un premio otorgado a uno de los boletos; dependiendo del uso que se haga de los números en los boletos, tienen interpretaciones en las cuatro escalas.
Entonces, por ejemplo, "¿gané?" ¿Es una pregunta tratar el número como nominal, mientras que 'llegué demasiado temprano para obtener el boleto ganador?' es una pregunta que lo trata como ordinal; por otro lado (y no creo que este esté en el periódico) usando 5 números de boleto al azar para estimar el número de personas en la sala los trataría como una relación (por ejemplo, si hubiera 4 números sorteados al azar que obtuvieron premios de consolación, tendrías 5 números aleatorios en total para estimar la asistencia total).
Argumentan que "un buen análisis de datos no supone tipos de datos", "las categorías de Stevens no describen atributos fijos de datos", "las categorías de Stevens son insuficientes para describir escalas de datos" y "los procedimientos estadísticos no pueden clasificarse según los criterios de Stevens" (de hecho cada declaración es también un título de sección).
Tukey también ofreció críticas en varios lugares (por ejemplo, en el capítulo 5 del libro de Mosteller y Tukey, Análisis y regresión de datos de 1977 ); Mosteller y Tukey ofrecieron una tipología: nombres , grados (etiquetas ordenadas), rangos (comenzando desde 1, que puede representar el más grande o el más pequeño), fracciones contadas (delimitadas por cero y uno, estos incluyen porcentajes), recuentos (no negativos enteros), cantidades (números reales no negativos), saldos (valores ilimitados, positivos o negativos).
En mi propio trabajo, he visto situaciones en las que los problemas graves con el análisis fueron causados por personas que no apreciaban la gran diferencia entre las variables relacionadas con los niveles (a veces llamadas variables de 'stock') y los flujos ; un ejemplo simple de estos tipos es la diferencia en los tipos de análisis apropiados para las cantidades de agua realmente en un tanque de almacenamiento en cada una de una secuencia de períodos, y la cantidad de agua que fluye hacia él. Estos (en algunos de esos casos) serían subcategorías del tipo de ' cantidades ' de Mosteller y Tukey (y en esos mismos casos, ambas variables de relación en el esquema de Stevens), lo que indica que los problemas de tipología pueden ser bastante sutiles, pero aún puede tener un impacto crítico en los análisis apropiados.
PFVelleman y L.Wilkinson (1993),
"Las tipologías nominales, ordinales, de intervalo y de relación son engañosas",
The American Statistician , vol. 47 no.1 pp.65-72
(una versión funcional parece estar disponible en la página web del 2º autor aquí )
Lord, F. (1953),
"Sobre el tratamiento estadístico de los números de fútbol",
American Psychologist , 8 , pp.750-751
(El año de este documento se da erróneamente en las referencias de la versión del documento de Velleman y Wilkinson al que me vinculé, pero que se menciona correctamente en el cuerpo del documento)
fuente
El tipo de datos está relacionado pero no es idéntico al tipo de la variable. La mayoría de los casos, son iguales pero no tienen que serlo.
Por ejemplo, si recolecta N muestras de una distribución normal. Se podría pensar que es un dato numérico (razón o escala). Pero también puedo decir que es una variable categórica con N categorías diferentes, con una frecuencia de 1 para cada categoría. Parece estúpido pero también es una variable válida.
fuente