Convertir la distribución de Poisson a distribución normal

10

Principalmente tengo experiencia en informática, pero ahora estoy tratando de enseñarme estadísticas básicas. Tengo algunos datos que creo que tienen una distribución de Poisson

ingrese la descripción de la imagen aquí

Tengo dos preguntas:

  1. ¿Es esta una distribución de Poisson?
  2. En segundo lugar, ¿es posible convertir esto en una distribución normal?

Cualquier ayuda sería apreciada. Muchas gracias

Abhi
fuente
3
1. No, una distribución de Poisson generalmente tiene un modo en la vecindad de su parámetro, por lo que hacer coincidir esto con una distribución de Poisson significaría un valor muy pequeño para el parámetro. 2. Sí y no. ¿Qué te gustaría hacer con una distribución normal?
Dilip Sarwate
Estoy tratando de alimentar estos datos en una regresión logística. Me hicieron creer que los datos distribuidos normalmente producen resultados mucho mejores
Abhi

Respuestas:

11

1) Lo que se muestra parece ser (continuo) datos continuos dibujados como un gráfico de barras.

Se puede concluir con bastante seguridad que es no una distribución de Poisson.

Una variable aleatoria de Poisson toma valores 0, 1, 2, ... y tiene el pico más alto en 0 solo cuando la media es menor que 1. Se usa para datos de conteo; Si dibujó una tabla similar de datos de Poisson, podría verse como los gráficos a continuación:

ingrese la descripción de la imagen aquí

El primero es un Poisson que muestra asimetría similar a la suya. Puede ver que su media es bastante pequeña (alrededor de 0.6).

El segundo es un Poisson que tiene un significado similar (en una suposición muy aproximada) al tuyo. Como ves, se ve bastante simétrico.

Puede tener la asimetría o la media grande, pero no ambas al mismo tiempo.

2) (i) No puede hacer que los datos discretos sean normales:

Con los datos agrupados, utilizando cualquier transformación de aumento monotónico, moverá todos los valores de un grupo al mismo lugar, por lo que el grupo más bajo seguirá teniendo el pico más alto; consulte el gráfico a continuación. En el primer gráfico, movemos las posiciones de los valores de x para que coincidan estrechamente con un cdf normal:

ingrese la descripción de la imagen aquí

En la segunda gráfica, vemos la función de probabilidad después de la transformación. Realmente no podemos lograr nada como la normalidad porque es discreto y sesgado; El gran salto del primer grupo seguirá siendo un gran salto, sin importar si lo empujas hacia la izquierda o hacia la derecha.

(ii) Los datos asimétricos continuos pueden transformarse para parecer razonablemente normales. Si tiene valores brutos (desagrupados) y no son muy discretos, posiblemente puede hacer algo, pero incluso entonces, cuando las personas buscan transformar sus datos, es innecesario o su problema subyacente puede resolverse de una manera diferente (generalmente mejor) . A veces, la transformación es una buena opción, pero generalmente se hace por razones no muy buenas.

Entonces ... ¿por qué quieres transformarlo?

Glen_b -Reinstate a Monica
fuente
Gracias Glen por la respuesta muy detallada. Explica muchos conceptos. Estoy tratando de alimentar estos datos en un modelo de regresión logística. Pensé (no estoy tan seguro ahora) que los datos distribuidos normalmente producen resultados mucho mejores. ¿Que recomiendas?
Abhi
1
Esta es la variable independiente (una variable )? ¿Qué quiere decir con "mejores resultados" en este contexto? x
Glen_b -Reinstate Monica
@Glen_b Muchas gracias por la maravillosa respuesta. También soy de formación en informática y me he atascado en esta pregunta: stats.stackexchange.com/questions/408232/… Por favor, hágame saber sus pensamientos sobre esto. Espero escuchar de usted. Muchas gracias una vez más :)
EmJ
No utilice comentarios para intentar reclutar personas para responder sus preguntas. Ya vi tu pregunta.
Glen_b -Reinstala a Monica
0

Publicar más información divertida para la posteridad.

Hay una publicación anterior que analiza un problema similar con respecto al uso de datos de conteo como una variable independiente para regresiones logísticas.

Aquí está:

¿El uso de datos de conteo como variable independiente viola alguno de los supuestos de GLM?

Como mencionó Glen, si simplemente está tratando de predecir un resultado dicotómico, es posible que pueda usar los datos de recuento no transformados como un componente directo de su modelo de regresión logística. Sin embargo, una nota de precaución: cuando una variable independiente (IV) está distribuida en poisson Y varía en muchos órdenes de magnitud utilizando los valores brutos, puede dar lugar a puntos muy influyentes, lo que a su vez puede sesgar su modelo. Si este es el caso, puede ser útil realizar una transformación a sus IV para obtener un modelo más robusto.

Las transformaciones como la raíz cuadrada o el registro pueden aumentar la relación entre el IV y la razón de posibilidades. Por ejemplo, si los cambios en X en tres órdenes de magnitud completos (lejos del valor medio de X) correspondieron con un simple cambio de 0.1 en la probabilidad de que ocurra Y (lejos de 0.5), entonces es bastante seguro asumir que cualquier discrepancia del modelo conducen a un sesgo significativo debido al apalancamiento extremo de los valores X atípicos.

Para ilustrar aún más, imagine que queremos usar la calificación Scoville de varios chiles (dominio [X] = {0, 3.2 millones}) para predecir la probabilidad de que una persona clasifique el pimiento como "incómodamente picante" (rango [Y] = {1 = sí, 0 = no}) después de comer un pimiento de la calificación correspondiente X.

https://en.wikipedia.org/wiki/Scoville_scale

Si observa el cuadro de calificaciones de Scoville, puede ver que una transformación logarítmica de las calificaciones de Scoville sin procesar le daría una aproximación más cercana a las calificaciones subjetivas (1-10) de cada chile.

Entonces, en este caso, si quisiéramos hacer un modelo más robusto que capture la verdadera relación entre las calificaciones de Scoville sin procesar y la calificación de calor subjetiva, podríamos realizar una transformación logarítmica en los valores de X. Al hacer esto, reducimos el impacto del dominio X excesivamente grande, al "reducir" efectivamente la distancia entre los valores que difieren en órdenes de magnitud y, en consecuencia, reduciendo el peso de cualquier valor atípico X (por ejemplo, ¡aquellos intolerantes a la capsaicina y / o locos demonios de especias! !!) tener en nuestras predicciones.

Espero que esto agregue algo de contexto divertido!

Ryan Arellano
fuente