¿La función logit es siempre la mejor para el modelado de regresión de datos binarios?

15

He estado pensando en este problema. La función logística habitual para modelar datos binarios es: Sin embargo, ¿es la función logit, que es una curva en forma de S, siempre la mejor para modelar los datos? Tal vez tenga razones para creer que sus datos no siguen la curva en forma de S normal sino un tipo diferente de curva con dominio(0,1).

log(p1p)=β0+β1X1+β2X2+
(0,1)

¿Hay alguna investigación sobre esto? Tal vez pueda modelarlo como una función probit o algo similar, pero ¿y si es algo completamente diferente? ¿Podría esto conducir a una mejor estimación de los efectos? Solo un pensamiento que tuve, y me pregunto si hay alguna investigación sobre esto.

Cañada
fuente
33
posible duplicado de la diferencia entre modelos logit y probit
Macro
2
@macro No creo que sea un duplicado exacto. Esa pregunta se trata solo de logit y probit; este también pide otras alternativas.
Peter Flom - Restablece a Monica
Estoy votando para dejar esto abierto. La principal diferencia que veo es que esta Q está pidiendo investigación en estadísticas sobre el tema de diferentes funciones de enlace posibles. Es una diferencia sutil, pero puede ser suficiente. @Glen, es posible que desee revisar la otra Q, si aún no la ha visto. En mi respuesta hablo de diferentes enlaces posibles. Si cree que esta Q no es realmente diferente, márquela y las modificaciones pueden cerrarla; si puede pensar en una manera de hacer la distinción b / t lo que está pidiendo y esa Q más clara, es posible que desee editar para hacerlo.
gung - Restablece a Monica
Sé que no es un duplicado exacto de la pregunta logit vs.probit, pero pensé que la respuesta de Gung, que iba más allá de lo que se preguntaba en la pregunta vinculada, aborda la mayor parte de lo que se preguntó aquí, razón por la cual cerré como duplicado. Probablemente hay otros hilos estrechamente relacionados, pero ese es el primero que se me ocurrió.
Macro
Gracias por los comentarios. Creo que mi pregunta es diferente de la pregunta anterior. Estoy muy familiarizado con las transformaciones probit y log-log, y la discusión de la pregunta anterior fue muy informativa para mí. Sin embargo, estoy interesado en otras funciones de enlace (¿posiblemente no paramétricas?) Que son posibles, en una situación en la que usted puede o no tener conocimiento de que la curva de probabilidad sigue una distribución diferente. Creo que cuando hay interacciones entre las covariables, esto podría jugar un papel importante. La respuesta de @David J. Harris también es útil ...
Glen

Respuestas:

15

Las personas usan todo tipo de funciones para mantener sus datos entre 0 y 1. Las probabilidades de registro se deducen naturalmente de las matemáticas cuando deriva el modelo (se llama "función de enlace canónico"), pero es absolutamente libre de experimentar con Otras alternativas.

Como Macro aludió en su comentario sobre su pregunta, una opción común es un modelo probit , que utiliza la función cuantil de un gaussiano en lugar de la función logística. También he escuchado cosas buenas sobre el uso de la función cuantil de una distribución de Student , aunque nunca lo he intentado.t

ttt7 7

Espero que esto ayude.

Editado para agregar : La discusión a la que se vinculó @Macro es realmente excelente. Recomiendo leerlo si está interesado en obtener más detalles.

David J. Harris
fuente
La pregunta es específicamente sobre "datos binarios", no sobre datos que están entre 0 y 1. El modelo probit no tiene justificación teórica en el caso de datos binarios.
Neil G
33
@NeilG, una razón para usar el modelo probit es que proporciona una forma conveniente de modelar datos binarios multivariados (por ejemplo, con un modelo mixto) como normales trillados. En ese caso, la matriz de correlación de las variables subyacentes es estadísticamente indentificable, mientras que no lo es en el caso logístico. Hay una discusión un poco más larga aquí .
Macro
@Macro: Oh, ya veo. Eso es muy interesante, gracias.
Neil G
@David J.Harris: ¿Te refieres a quintil (o tal vez cuantil tiene el mismo significado), es decir, dividir la distribución en trozos de quintas: 20%, 40%, .., 100%?
MSIS
1
@MSIS un quintil se divide en quintas partes, un percentil se divide en centésimas y un cuartil se divide en unidades arbitrarias Ver en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris
11

No veo ninguna razón, a priori, por la cual la función de enlace apropiada para un conjunto de datos dado debe ser el logit (aunque el universo parece ser bastante amable con nosotros en general). No sé si esto es lo que estás buscando, pero aquí hay algunos documentos que analizan funciones de enlace más exóticas:

Divulgación: no conozco bien este material. Intenté incursionar con Cauchit y Scobit hace un par de años, pero mi código seguía fallando (probablemente porque no soy un gran programador), y no parecía relevante para el proyecto en el que estaba trabajando, así que lo dejé caer. .

X

gung - Restablece a Monica
fuente
4

La mejor estrategia es modelar los datos a la luz de lo que está sucediendo (¡no es sorpresa!)

  • Los modelos Probit se originan con los estudios LD50: desea la dosis de insecticida que mata a la mitad de los insectos. La respuesta binaria es si el error vive o muere (a una dosis dada). Los errores que son susceptibles a una dosis también serán susceptibles a dosis más bajas, que es donde surge la idea de modelar a la Normal acumulativa.
  • Si las observaciones binarias vienen en grupos, puede usar un modelo beta-binomial. Ben Bolker tiene una buena introducción en la documentación de su paquete bbmle (en R) que implementa esto en casos simples. Estos modelos permiten un mayor control sobre la variación de los datos que lo que obtienes en una distribución binomial.
  • Los datos binarios multivariados, el tipo que se acumula en tablas de contingencia multidimensionales, se pueden analizar utilizando un modelo log-lineal. La función de enlace es el registro en lugar de las probabilidades de registro. Algunas personas se refieren a esto como la regresión de Poisson.

Probablemente no haya investigaciones sobre estos modelos como tales, aunque ha habido mucha investigación sobre cualquiera de estos modelos, y sobre las comparaciones entre ellos, y sobre diferentes formas de estimarlos. Lo que encuentra en la literatura es que hay mucha actividad por un tiempo, ya que los investigadores consideran una serie de opciones para una clase particular de problemas, y luego un método emerge como superior.

Placidia
fuente
+1 para beta-binomial. Esa es una gran herramienta para tener en la caja de herramientas.
David J. Harris
3

pagyopagyo

Neil G
fuente