Transformando datos: ¿Todas las variables o solo las no normales?

En Discovering Statistics Using SPSS de Andy Field, afirma que todas las variables tienen que ser transformadas.

Sin embargo, en la publicación: "Examinando las relaciones espacialmente variables entre el uso del suelo y la calidad del agua utilizando la regresión ponderada geográficamente I: Diseño y evaluación del modelo", afirman específicamente que solo se transformaron las variables no normales.

¿Es este análisis específico? Por ejemplo, en una comparación de medias, comparar registros con datos brutos obviamente produciría una diferencia significativa, mientras que cuando se usa algo como la regresión para investigar la relación entre variables, se vuelve menos importante.

Editar: Aquí está la página de texto completo en la sección "Transformación de datos":

Y aquí está el enlace al documento: http://www.sciencedirect.com/science/article/pii/S0048969708009121

normal-distribution data-transformation I Heart Beats
fuente

Según la nueva imagen que publicó, el autor parece confundir "variable" con "observación". En la parte superior de la p. 154 acertadamente enfatiza que cuando transforma una variable, debe transformar todos sus valores (observaciones) de la misma manera, de lo contrario se hace imposible comparar nada. (Sin embargo, afirmar que "no cambiará las relaciones entre las variables" requiere una interpretación extremadamente generosa para ser correcta). La parte inferior de la pág. 154 está tan equivocado, oración por oración (incluso en las notas al pie), que ni siquiera vale la pena enumerar todos los problemas con él.

whuber

Respuestas:

Citas varios consejos, todos los cuales sin duda tienen la intención de ser útil, pero es difícil encontrar mucho mérito en ninguno de ellos.

En cada caso, confío totalmente en lo que usted cita como resumen. En defensa de los autores, me gustaría creer que agregan calificaciones apropiadas en el entorno u otro material. (Las referencias bibliográficas completas en nombre (s) habitual (s), fecha, título, (editor, lugar) o (título de la revista, volumen, páginas) en formato mejorarían la pregunta).

Campo

Este consejo es útil, pero en el mejor de los casos está muy simplificado. El consejo de Field parece estar destinado en general; Por ejemplo, la referencia a la prueba de Levene implica un enfoque temporal en el análisis de varianza.

$(1,0)$

En términos más generales, es común, en muchos campos la situación habitual, que algunos predictores se transformen y el resto se deje como está.

Es cierto que encontrar en un documento o disertación una mezcla de transformaciones aplicadas de manera diferente a diferentes predictores (incluso como un caso especial, transformación de identidad o dejarlo como está) a menudo es motivo de preocupación para el lector. ¿Es la mezcla un conjunto de opciones bien pensado, o fue arbitraria y caprichosa?

Además, en una serie de estudios, la coherencia del enfoque (siempre aplicando logaritmos a una respuesta, o nunca haciéndolo) ayuda enormemente a comparar resultados, y el enfoque diferente lo hace más difícil.

Pero eso no quiere decir que nunca podría haber razones para una mezcla de transformaciones.

No veo que la mayor parte de la sección que cites tenga mucho que ver con los consejos clave que resaltas en amarillo. Esto en sí mismo es motivo de preocupación: es un asunto extraño anunciar una regla absoluta y luego no explicarla realmente. Por el contrario, el mandato "Recordar" sugiere que los motivos de Field fueron suministrados anteriormente en el libro.

Papel anónimo

El contexto aquí es modelos de regresión. Como a menudo, hablar de OLS enfatiza extrañamente el método de estimación en lugar del modelo, pero podemos entender lo que se pretende. GWR I lo interpreto como una regresión ponderada geográficamente.

El argumento aquí es que debe transformar los predictores no normales y dejar los demás tal como están. Nuevamente, esto plantea una pregunta sobre lo que puede y debe hacer con las variables indicadoras, que no pueden distribuirse normalmente (lo cual, como se mencionó anteriormente, puede responderse señalando que la no normalidad en ese caso no es un problema). Pero el mandato lo tiene al revés al implicar que el problema no es la normalidad de los predictores. No tan; no es parte del modelado de regresión asumir nada sobre distribuciones marginales de los predictores.

$X\beta$

Hay tantos consejos extraordinariamente buenos sobre transformaciones en este foro que me he centrado en discutir lo que usted cita.

PD: Agregue una declaración que comience "Por ejemplo, en una comparación de medias, comparar registros con datos sin procesar obviamente produciría una diferencia significativa". No tengo claro lo que tiene en mente, pero comparar valores para un grupo con logaritmos de valores para otro grupo simplemente no tendría sentido. No entiendo el resto de su declaración en absoluto.

Nick Cox
fuente

Nick, quería expresar mi punto de manera rápida y concisa, lo que siento que hice. En el mundo de Google, he proporcionado suficiente información para acceder fácilmente a los documentos originales, en caso de ser necesarios. Gracias por responder, aunque de manera indirecta, me proporcionó exactamente la información que estaba buscando: tener que transformar todas las variables, como lo sugiere Field, en su Sección de Transformación de Datos es un enfoque incorrecto para la transformación de datos.

I Heart Beats

+1. Me maravilla lo tácticamente que has logrado abordar material que es tan erróneo. Hojear las páginas aquí y allá en el libro de SPSS proporciona información sobre algunas de las preguntas realmente confusas que tenemos en este sitio: creo que deben provenir de los lectores de ese libro. Está lleno de errores, información errónea y confabulación absoluta.

whuber

@ I Heart Beats Satisfecho, la respuesta le resultó útil, pero mi solicitud de referencias adecuadas es válida. También podría decir que las referencias incompletas siempre son defendibles porque las personas interesadas siempre pueden buscar en Google. Por el contrario, una buena práctica bibliográfica ayuda a los buenos estudios y la ciencia, brindando detalles completos y no haciendo que (muchos) lectores realicen trabajos innecesarios.

Nick Cox

@ Nick ver ediciones en mi pregunta. Creo que el artículo es de código abierto, y agregué una página completa del texto para el contexto.

I Heart Beats

Gracias por mejorar las referencias. Has citado más de Field. Hay una sección adicional visible que incluye la afirmación de que "la transformación de los datos no cambiará las relaciones entre las variables". O eso gira en torno a un significado idiosincrásico de "relación", o (lo más probable, me temo) es inútil, de hecho bastante equivocado. Lamento (en cierto sentido) estar de acuerdo con @whuber sobre el libro en cuestión sobre la evidencia que tenemos frente a nosotros . (Actualización: whuber estaba haciendo esencialmente el mismo punto simultáneamente: vea su comentario sobre la pregunta).

Nick Cox

En primer lugar, ambas citas son engañosas en la medida en que cualquier transformación aplicada a los datos destinados a usarse en un modelo de regresión no se hace para hacer que los PDF variables se distribuyan más normalmente, se hace para hacer que los residuales del modelo sean más simétricos ya que una suposición en la regresión clásica es que los errores son gaussianos. Esto implica un mayor nivel de rigor y rigurosidad que simplemente simular un PDF.

Además, ambas citas son débiles porque ninguno de los dos profundiza en las motivaciones para sus recetas (al menos en base a la información proporcionada). Resulta que no estoy de acuerdo con ambos.

En el pasaje que ha resaltado, el libro de SPSS afirma que no se permiten mezclas de transformaciones (por ejemplo, registro natural para una variable, raíz cuadrada para otra). ¿Por qué es esto ilegal? Las mezclas de transformaciones no violan los supuestos de regresión que conozco. Verifique los textos de regresión sobre los supuestos de regresión para confirmar que este es el caso. Las mezclas de transformación pueden presentar un problema descriptivo sustantivo en términos de su interpretación, pero no se trata de si las mezclas son ilegales o no. El chico de SPSS está equivocado.

En cuanto al segundo texto, una vez más, las transformaciones son totalmente una cuestión de elección del analista, ya sea que uno las haga, transforma todas las entradas o algunas variables y no otras. Nada de esto viola ninguna suposición.

Donde creo que la segunda cita se sale de los rieles es en la afirmación de que "... para evitar la multicolinealidad potencial ... solo se usó un indicador de uso de la tierra ..." Este es un consejo descaradamente malo y suena como el tipo de cosas que algunos analistas harán como una técnica de reducción de dimensiones en la que factorizarán analizar un grupo de variables y elegirán la variable de carga más alta en cada factor. Esta heurística ha existido durante años y no la uso o recomiendo. Nuevamente, esto es una cuestión de preferencia y capacitación de analistas. Pero este punto no está dirigido a responder sus preguntas específicas.

Al final del día, ambas citas son afirmaciones de las opiniones de los autores en ausencia de evidencia de respaldo, con base en la información proporcionada.

Mike Hunter
fuente

Hacemos puntos ampliamente similares, pero quiero agregar que los buenos textos explican que los errores gaussianos son el supuesto menos importante en el modelado de regresión y no son necesarios para muchos propósitos.

Nick Cox

Buen texto: stat.columbia.edu/~gelman/arm :)

Mateo Drury