Supongamos que tengo un montón de ciudades con diferentes tamaños de población, y quiero ver si hay una relación lineal positiva entre el número de tiendas de licores en una ciudad y el número de DUI. Donde estoy determinando si esta relación es significativa o no basada en una prueba t del coeficiente de regresión estimado.
Ahora claramente el pop. El tamaño de una ciudad se correlacionará positivamente tanto con el número de DUI como con el número de licorerías. Por lo tanto, si ejecuto una regresión lineal simple solo en las tiendas de licores y veo si su coeficiente de regresión es estadísticamente significativo, es probable que me encuentre con un problema de multicolinealidad y sobreestime el efecto de las tiendas de licores en los DUI.
¿Cuál de los dos métodos debo usar para corregir esto?
Debería dividir el número de licorerías en la ciudad por su población para obtener un valor per cápita de licorería y luego retroceder en eso.
Debería retroceder tanto en las tiendas de licores como en el tamaño, y luego mirar para ver si el coeficiente de la tienda de licores es significativo al controlar el tamaño.
¿Algún otro método?
Sinceramente, no puedo decidir cuál parece más sensato. Vacilo entre ellos, dependiendo de cuál pienso, soy capaz de convencerme de que esa es la forma correcta.
Por un lado, las licorerías per cápita parecen ser la variable correcta para usar, ya que los DUI son cometidos por individuos, pero eso no parece ser estadísticamente muy riguroso. Por otro lado, controlar el tamaño parece estadísticamente riguroso, pero más bien indirecto. Además, si vuelvo a escalar después de calcular la variable per cápita de las tiendas de licores, obtengo coeficientes de regresión muy similares entre los dos métodos, pero el método 1 produce un valor p menor.
Respuestas:
Regresaría el "DUI per capita" (Y) en "tiendas de licor per capita" (X) y "tamaño de la población" (Z). De esta manera, su Y refleja la propensión a conducir en estado de ebriedad de las personas urbanas, mientras que X es la característica de población de una ciudad determinada. Z es una variable de control por si acaso hay un efecto de tamaño en Y. No creo que vaya a ver un problema de multicolinealidad en esta configuración.
fuente
Si estimar su modelo con mínimos cuadrados ordinarios, su segunda regresión es bastante problemática.
Y es posible que desee pensar en cómo la variación de su término de error varía con el tamaño de la ciudad.
La regresión (2) es equivalente a su regresión (1) donde las observaciones son ponderadas por el cuadrado de la población de la ciudad:
Estos son los mínimos cuadrados ponderados , y los pesos que está aplicando son los cuadrados de la población de la ciudad. ¿Eso es mucho peso para las ciudades más grandes?
Tenga en cuenta que si tuviera una observación para cada individuo en una ciudad y le asignara a cada individuo el valor promedio de la ciudad, eso sería equivalente a ejecutar una regresión en la que está ponderando cada ciudad por población (no por población al cuadrado).
fuente
Realicé algunos experimentos con datos simulados para ver qué método funciona mejor. Por favor lea mis hallazgos a continuación.
Veamos dos escenarios diferentes: Primero, donde no hay una relación directa entre DUI y tiendas de licores, y Segundo, si tenemos una relación directa. Luego examine cada uno de los métodos para ver qué método funciona mejor.
Caso 1: Sin relación directa, pero ambos están relacionados con la población.
Ahora que los datos están simulados, veamos cómo le va a cada uno de los métodos.
Nbr_Liquor_Stores altamente significativo, como se esperaba. Aunque la relación es indirecta.
Nbr_Liquor_Stores no tiene importancia. Parece funcionar, pero no saltemos a conclusiones todavía.
Nbr_Liquor_Stores no es significativo, el valor p también está bastante cerca del Método 1.
(Nbr_Liquor_Stores / popln) altamente significativo! No esperaba eso, tal vez este método no sea el mejor para la declaración de su problema.
Caso 2: relación directa tanto con la población como con las tiendas de licor
Veamos el rendimiento de cada uno de los métodos en este escenario.
Esperado, pero no es un gran método para hacer inferencias causales.
Eso es una sorpresa para mí, esperaba que este método capturara la relación pero no la retoma. ¡Entonces este método falla en este escenario!
Nbr_Liquor_Stores es significativo, el valor p tiene mucho sentido. Un claro ganador para mí.
TLDR; El método 2 produce los valores p más precisos en diferentes escenarios.
fuente