He estado leyendo sobre la distancia del cocinero para identificar valores atípicos que tienen una gran influencia en mi regresión. En el estudio original de Cook, dice que una tasa de corte de 1 debería ser comparable para identificar personas influyentes. Sin embargo, varios otros estudios usan o como punto de corte.
En mi estudio, ninguno de mis residuos tiene una D superior a 1. Sin embargo, si uso como punto de corte , entonces hay varios datos puntos que se consideran influenciadores. Decidí probar si eliminar estos puntos de datos haría una diferencia en mi regresión lineal general. Todas mis vías intravenosas conservaron su importancia y no fue evidente ningún cambio evidente.
¿Debo conservar todos mis puntos de datos y usar la tasa de corte de 1? O eliminarlos?
fuente
Respuestas:
Probablemente iría con su modelo original con su conjunto de datos completo. En general, considero que estas cosas facilitan los análisis de sensibilidad. Es decir, lo señalan hacia qué verificar para asegurarse de que no tenga un resultado dado solo por algo estúpido. En su caso, tiene algunos puntos potencialmente influyentes, pero si vuelve a ejecutar el modelo sin ellos, obtiene sustancialmente la misma respuesta (al menos con respecto a los aspectos que presumiblemente le interesan). En otras palabras, use el umbral que desee: solo está reajustando el modelo como un cheque, no como la versión 'verdadera'. Si cree que otras personas estarán lo suficientemente preocupadas por los posibles valores atípicos, podría informar ambos ajustes del modelo. Lo que dirías es como,
También es posible eliminarlos y usar el segundo modelo como resultado principal. Después de todo, permanecer con el conjunto de datos original equivale a suponer qué datos pertenecen al modelo tanto como ir con el subconjunto. Pero es probable que las personas sean muy escépticas con respecto a sus resultados informados porque psicológicamente es demasiado fácil para alguien convencerse, sin ninguna intención corrupta real, de seguir el conjunto de ajustes post-hoc (como dejar caer algunas observaciones) que les da el resultado que más esperaban ver. Al ir siempre con el conjunto de datos completo, evita esa posibilidad y asegura a las personas (por ejemplo, revisores) que eso no es lo que está sucediendo en su proyecto.
Otro problema aquí es que las personas terminan " persiguiendo la burbuja ". Cuando elimina algunos valores atípicos potenciales y vuelve a ejecutar su modelo, termina con resultados que muestran observaciones nuevas y diferentes como valores atípicos potenciales. ¿Por cuántas iteraciones se supone que debes pasar? La respuesta estándar a esto es que debe permanecer con su conjunto de datos original y completo y, en su lugar, ejecutar una regresión sólida . Esto nuevamente puede entenderse como un análisis de sensibilidad.
fuente