Cómo normalizar datos de distribución desconocida

12

Estoy tratando de encontrar la distribución característica más apropiada de datos de mediciones repetidas de cierto tipo.

Esencialmente, en mi rama de la geología, a menudo usamos datación radiométrica de minerales de muestras (trozos de roca) para averiguar cuánto tiempo hace que ocurrió un evento (la roca se enfrió por debajo de un umbral de temperatura). Típicamente, se realizarán varias (3-10) mediciones de cada muestra. Luego, se toman la media y la desviación estándar σ . Esto es geología, por lo que las edades de enfriamiento de las muestras pueden escalar de 10 5 a 10 9 años, dependiendo de la situación.μσ105109

Sin embargo, tengo razones para creer que las mediciones no son gaussianas: los "valores atípicos", ya sea declarados arbitrariamente o mediante algún criterio, como el criterio de Peirce [Ross, 2003] o la prueba Q de Dixon [Dean y Dixon, 1951] , son bastante común (digamos, 1 de cada 30) y estos son casi siempre más antiguos, lo que indica que estas mediciones son característicamente sesgadas a la derecha. Hay razones bien entendidas para que esto tenga que ver con impurezas mineralógicas.

Edad media frente a mediana de la muestra.  La línea roja indica media = mediana.  Tenga en cuenta los medios más antiguos causados ​​por mediciones sesgadas

μσ

Me pregunto cuál es la mejor manera de hacer esto. Hasta ahora, tengo una base de datos con aproximadamente 600 muestras, y 2-10 (más o menos) replican mediciones por muestra. He intentado normalizar las muestras dividiendo cada una por la media o la mediana, y luego mirando los histogramas de los datos normalizados. Esto produce resultados razonables, y parece indicar que los datos son característicamente log-laplacianos:

ingrese la descripción de la imagen aquí

Sin embargo, no estoy seguro de si esta es la forma adecuada de hacerlo, o si hay advertencias que desconozco que pueden estar sesgando mis resultados para que se vean así. ¿Alguien tiene experiencia con este tipo de cosas y conoce las mejores prácticas?

cossatot
fuente
44
Dado que 'normalizar' se usa para significar varias cosas diferentes en contextos como este, ¿qué quiere decir exactamente con "normalizar"? ¿Qué información estás tratando de obtener de los datos?
Glen_b -Reinstate Monica
1
@Glen_b: Por 'Normalizar' me refiero simplemente a escalar las cosas por mediana (o la media) de todas las edades medidas de una muestra por la mediana (o media, o lo que sea). Existe evidencia experimental de que la dispersión en las muestras aumenta linealmente con la edad. Lo que quiero de los datos es ver si este tipo de medición se caracteriza mejor por una distribución normal, logarítmica normal o beta, o cualquier distribución, de modo que se pueda derivar la ubicación y la escala más precisas, o L1 vs. Regresión L2 justificada, etc. En esta publicación, pregunto cómo puedo tomar los datos que he descrito e investigar esto.
cossatot
1
No tengo experiencia en este campo, pero sus gráficos y el pensamiento que pone en esto se ve bien. Es posible que ya lo haya visto, pero el artículo de Wikipedia sobre Log-Laplace se vincula a un buen artículo, que no aborda directamente su pregunta, pero puede tener algunas ideas interesantes: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne
No estoy seguro de entender por completo, pero ¿tal vez el bootstrapping podría ayudar? Si recupera la variación, etc. de su distribución utilizando métodos de arranque, puede utilizar la información recuperada para normalizar sus datos. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Respuestas:

1

¿Ha considerado tomar la media de las mediciones (3-10) de cada muestra? ¿Puede entonces trabajar con la distribución resultante, que se aproximará a la distribución t, que se aproximará a la distribución normal para n más grande?

Michael P
fuente
1

No creo que esté utilizando normalizar para significar lo que normalmente significa, que generalmente es algo como normalizar la media y / o la varianza, y / o el blanqueamiento, por ejemplo.

Creo que lo que está intentando hacer es encontrar una reparametrización no lineal y / o características que le permitan usar modelos lineales en sus datos.

Esto no es trivial y no tiene una respuesta simple. Es por eso que a los científicos de datos se les paga mucho dinero ;-)

Una forma relativamente sencilla de crear características no lineales es utilizar una red neuronal de alimentación directa, donde el número de capas y el número de neuronas por capa controlan la capacidad de la red para generar características. Mayor capacidad => más no linealidad, más sobreajuste. Baja capacidad => más linealidad, mayor sesgo, menor varianza.

Otro método que le da un poco más de control es usar splines.

Finalmente, podría crear tales características a mano, lo que creo que es lo que está tratando de hacer, pero entonces, no hay una respuesta simple de 'recuadro negro': deberá analizar cuidadosamente los datos, buscar patrones, etc. .

Hugh Perkins
fuente
Normalizar tiene varios significados en las matemáticas y las ciencias; declarar que el significado personal más familiar es el estándar es lo que la mayoría de la gente está tentada a hacer, pero no se lavará con los demás. Más en serio, esto comienza sobre el tema pero luego se desvía. ¿Dónde está la indicación de interés en los modelos no lineales? Redes neuronales? Splines? ¿Qué tienen que ver estos con la identificación de una distribución o familia de distribuciones, cuál es la pregunta? No puedo ver la conexión, así que recomiendo cortar lo que no es relevante o expandirlo para mostrar cómo es relevante.
Nick Cox