¿Se puede hacer una regresión lineal simple sin usar gráficas y álgebra lineal?

47

Estoy completamente ciego y vengo de un fondo de programación.

Lo que intento hacer es aprender el aprendizaje automático, y para hacer esto, primero necesito aprender sobre la regresión lineal. Todas las explicaciones en Internet que encuentro sobre este tema trazan primero los datos. Estoy buscando una explicación práctica de regresión lineal que no dependa de gráficos y diagramas.

Aquí está mi comprensión del objetivo de la regresión lineal simple:

La regresión lineal simple está tratando de encontrar la fórmula que, una vez que le das X, te proporcionará la estimación más cercana Y.

Entonces, según tengo entendido, lo que hay que hacer es comparar el predictor (por ejemplo, el área de una casa en pies cuadrados) con la variable independiente (el precio). En mi ejemplo, probablemente pueda crear una forma no visual de obtener la mejor fórmula para calcular el precio de una casa a partir de su área. Por ejemplo, ¿tal vez obtendrías el área y el precio de 1000 casas en un vecindario y dividirías el precio por el área? El resultado (al menos en Irán, que es donde vivo) tendría una variación muy insignificante. Entonces probablemente obtendrás algo como esto:

Price = 2333 Rials * Area of the house

Por supuesto, entonces necesitaría revisar todas las 1000 casas en su conjunto de datos, poner el área en la fórmula anterior, comparar la estimación con el precio real, cuadrar los resultados (supongo que para evitar que las variaciones se cancelen entre sí) y luego obtener un número, luego seguir jugando con el 2333para disminuir los errores.

Por supuesto, esta es la opción de fuerza bruta donde probablemente tomará años calcular los errores y llegar a la mejor opción, pero ¿ves lo que digo? No dije nada sobre un gráfico, o una línea, o puntos en un gráfico, o la mejor manera de ajustar una línea a sus datos existentes.

Entonces, ¿por qué necesitarías un diagrama de dispersión y álgebra lineal para esto? ¿No hay una forma no visual?

Primero, ¿estoy en lo cierto en mis suposiciones? Si no, me encantaría que me corrijan. Sin embargo, ya sea que lo sea o no, ¿hay alguna manera de llegar a la fórmula sin jugar con el álgebra lineal?

Realmente agradecería si pudiera obtener un ejemplo con la explicación, de modo que pueda hacerlo junto con el texto para probar mi comprensión.

Parham Doustdar
fuente
2
Pero, ¿tienes imaginación espacial que pueda hacerse cargo de la visión? En caso afirmativo, supongo que se puede imaginar un diagrama de dispersión de alguna manera. Dudo que la esencia de la regresión pueda ser captada únicamente por el pensamiento proposicional (como el verbal).
ttnphns 01 de
3
¿Cuál es tu formación matemática? La página de Wikipedia llamada Regresión lineal simple es principalmente texto, y tiene lo que creo que es una descripción razonablemente clara en el primer párrafo. ¿Cómo se compara ese artículo con el nivel de detalle que estás buscando?
shadowtalker
3
Seguiré pensando en ello, veré si puedo aparecer, pero de inmediato, piense en la regresión como la resolución de una ecuación que no tiene solución. Todos los puntos de datos serán pronosticados incorrectamente por su regresor (el área de la casa). Está buscando una ecuación que haga que sus errores sean lo más tolerables posible.
Antoni Parellada
8
excelente pregunta, tenemos que pensar más en explicar nuestros conceptos a las personas con discapacidad
Aksakal
44
No necesitas usar una trama. De hecho, para la regresión lineal múltiple (regresión con muchos predictores) no puede trazar un espacio dimensional . Sin embargo, el álgebra lineal todavía funciona. Todas las fórmulas de álgebra lineal involucradas en la regresión lineal pueden reducirse a operaciones en números escalares simples. Simplemente no querrás hacerlo de esa manera a mano si valoras tu cordura. p+1
conjeturas

Respuestas:

17

Sí, estás en eso. Tienes que seguir jugando con el 2333 hasta que encuentres el correcto que minimice el error. Pero hay una forma matemática de encontrar la "correcta". Llamemos a ese número . , la suma de los errores al cuadrado (SSE) es una función de ya que para cada elección de puede calcular la cantidad que cada estimación está desactivada, cuadrarla y sumarlas.E β ββEββ

¿Qué minimiza la suma total de los errores al cuadrado? Esto es solo un problema de cálculo. Tome la derivada de por y póngala igual a cero. Esto da una ecuación para . Compruebe que la segunda derivada es positiva para saber que es un mínimo. Por lo tanto, obtiene una ecuación para que minimiza el error.E β β ββEβββ

Si lo deriva de esta manera, obtendrá como un resumen. Si escribe la forma de álgebra lineal de la estimación, verá que esto es lo mismo.β

Editar: Aquí hay un enlace a algunas notas con este tipo de derivación. Las matemáticas se ponen un poco desordenadas, pero en el fondo es solo un problema de cálculo.

Chris Rackauckas
fuente
DIOS MIO. ¡Finalmente! Una forma de álgebra no lineal para calcular esto. Los conceptos de los que está hablando en su respuesta están sobre mi cabeza, pero definitivamente analizaré los derivados en un esfuerzo por comprender mejor esta línea de pensamiento.
Parham Doustdar
1
Me vinculé a algunas notas que lo explican en un nivel bastante elemental. Creo que cualquier respuesta necesitará cálculo porque la forma de resolver problemas como "encontrar el mínimo de " es tomar una derivada y ponerla a cero. Intuitivamente, esto solo está diciendo que el mínimo (o máximo) de una colina será donde la colina es plana (¡ya que la pendiente es más alta a lo largo del lado de la colina!). Derivada = pendiente. Entonces, en áreas que cambian comienza a causar pequeños cambios en , está cerca del mínimo (o máximo. ¡Debe asegurarse de que no sea un máximo!). β EE(β)βE
Chris Rackauckas
44
Esta idea te lleva al aprendizaje automático. Uno de los métodos básicos en el aprendizaje automático es el gradiente decente. Eso básicamente se traduce como "seguir la pendiente". si sigues dejando que la pelota ruede en la dirección donde la colina es más empinada, alcanzarás un mínimo. Entonces, el método decente de gradiente es hacer precisamente esto: ¡descubra qué forma de cambiar hace que el error disminuya más y siga ese camino! β
Chris Rackauckas
2
Para la regresión de mínimos cuadrados, no necesita hacer un gradiente decente, ya que puede resolver una ecuación que es la respuesta, pero esto proporciona una buena forma de entender qué es el aprendizaje automático. Se reduce a elegir una forma de medir el error y luego encontrar alguna forma de minimizar la ecuación de error. El resultado es la "mejor" ecuación de estimación aprendida a través de los datos. ¡Espero que eso te ayude en tu camino hacia el aprendizaje automático!
Chris Rackauckas
10

Su comprensión es cercana, pero necesita alguna extensión: la regresión lineal simple está tratando de encontrar la fórmula que, una vez que la proporcione X, le proporcionará la estimación más cercana Y basada en una relación lineal entre X y Y .

Su ejemplo de precios de la vivienda, cuando se extiende un poco, muestra por qué termina con diagramas de dispersión y similares. Primero, simplemente dividir el precio por el área no funciona en otros casos, como los precios de la tierra en mi ciudad natal, donde las regulaciones sobre la construcción significan que tener una parcela de tierra sobre la cual se puede construir una casa tiene un alto valor. Entonces los precios de la tierra no son simplemente proporcionales a las áreas. Cada aumento del área de la parcela podría dar el mismo aumento en el valor de la parcela, pero si bajara a una parcela (mítica) de área 0, todavía habría un precio aparente asociado que representa el valor de poseer una parcela de tierra eso está aprobado para construir.

Sigue siendo una relación lineal entre área y valor, pero hay una intersección en la relación, que representa el valor de ser propietario de una parcela. Sin embargo, lo que hace que esto sea una relación lineal es que el cambio en el valor por unidad de cambio en el área, la pendiente o el coeficiente de regresión, es siempre el mismo, independientemente de las magnitudes del área o el valor.

Digamos que ya sabe de alguna manera tanto la intersección como la pendiente que relacionan las áreas de parcela con el valor, y compara los valores de esa relación lineal con los valores reales representados por las ventas recientes. Encontrará que los valores predichos y reales rara vez coinciden. Estas discrepancias representan los errores en su modelo y dan como resultado una dispersión de valores alrededor de la relación predicha. Obtiene un diagrama de dispersión de puntos agrupados alrededor de su relación de línea recta pronosticada entre área y valor.

En la mayoría de los ejemplos prácticos, aún no conoce la intersección y la pendiente, por lo que debe tratar de estimarlos a partir de los datos. Eso es lo que intenta hacer la regresión lineal.

Es mejor que piense en la regresión lineal y el modelado relacionado desde la perspectiva de la estimación de máxima verosimilitud , que es una búsqueda de los valores de parámetros particulares en su modelo que hacen que los datos sean los más probables. Es similar al enfoque de "fuerza bruta" que propone en su pregunta, pero con una medida algo diferente de lo que está tratando de optimizar. Con los métodos informáticos modernos y el diseño inteligente del patrón de búsqueda, se puede hacer con bastante rapidez.

La estimación de máxima verosimilitud puede conceptualizarse de manera que no requiera una gráfica y es similar a la forma en que ya parece estar pensando. En el caso de la regresión lineal, tanto la regresión estándar de mínimos cuadrados como la probabilidad máxima proporcionan las mismas estimaciones de intercepción y pendiente.

Pensar en términos de máxima probabilidad tiene la ventaja adicional de que se extiende mejor a otras situaciones en las que no hay relaciones estrictamente lineales. Un buen ejemplo es la regresión logística en la que intenta estimar la probabilidad de que ocurra un evento en función de las variables predictoras. Eso se puede lograr con la máxima probabilidad, pero a diferencia de la regresión lineal estándar, no existe una ecuación simple que produzca la intersección y las pendientes en la regresión logística.

EdM
fuente
1
Pensé que '' lineal '' en '' regresión lineal '' significaba '' lineal en los parámetros '', por lo que puede tener como una variable independiente, pero el coeficiente de cada variable independiente debe aparecer de forma lineal ? x2
@fcop tienes razón. Estaba comenzando con el ejemplo proporcionado por el OP, que postulaba una proporcionalidad entre valores y áreas. Tiendo a pensar en los valores transformados de las variables predictoras originales como las variables independientes reales en la regresión cuando se usan transformaciones como potencias o registros. Creo que eso termina en la práctica principalmente como una diferencia en la terminología, aunque existen diferencias en los modelos de error implícito.
EdM
Veo su punto, de todos modos, fue una buena respuesta (+1)
7

En primer lugar, mis cumplidos. Es difícil para todos luchar con las estadísticas (soy médico, así que puedes adivinar lo difícil que es para mí) ...

No puedo proponer una explicación visual a la regresión lineal , sino algo muy cercano: una explicación táctil a la regresión lineal .

Imagina que estás entrando a una habitación desde una puerta. La habitación tiene una forma más o menos cuadrada y la puerta está en la esquina inferior izquierda. Desea llegar a la siguiente habitación, cuya puerta espera que esté en la esquina superior derecha, más o menos. Imagina que no puedes decir exactamente dónde está la puerta de al lado (¡nunca!), Pero hay algunas personas dispersas en la habitación, y pueden decirte a quién ir. Tampoco pueden ver, pero pueden decirte qué hay cerca de ellos. El camino final que tomará para llegar a la siguiente puerta, guiado por esta gente, es análogo a una línea de regresión, que minimiza la distancia entre estas personas y lo lleva hacia la puerta, cerca (si no está) de la ruta correcta.

Joe_74
fuente
1
(+1) Me gusta mucho tu ejemplo y es curioso que, por pura coincidencia, hayamos usado una ilustración muy similar para este problema
Tim
"La habitación tiene más o menos una forma cuadrada": ¿qué es cuadrado para las personas ciegas? Con esta oración, nos lleva de vuelta a donde debíamos comenzar.
Aksakal
44
No estoy de acuerdo Déjelos caminar 10 pies en una dirección, luego déjelos girar 90 ° (como un brazo) y déjelos caminar nuevamente 10 pies. Eso es un cuadrado si no puedes ver correctamente.
Joe_74
@ GiuseppeBiondi-Zoccai, si estoy construyendo un modelo de presión en la cámara sobre la temperatura, ¿por qué necesitaría mostrar cuadrados y líneas y otros conceptos espaciales? Seguramente es conveniente si no eres ciego, pero para una persona ciega estas analogías espaciales no aportan nada sobre el problema en cuestión, solo complican la exposición
Aksakal
2
De nuevo, cortésmente no estoy de acuerdo ... mi suposición siempre ha sido que las personas ciegas han desarrollado habilidades espaciales táctiles especialmente De todos modos, cualquier ejemplo de qué trabajo está bien, y cuanto más mejor.
Joe_74
3

Andrew Gelman y David K. Park (2012) proporcionaron un buen ejemplo que puede ayudar con su pregunta. Palo Vamos a su ejemplo de predecir el precio de la casa dado que es el área . Para esto usamos un modelo de regresión lineal simpleXYX

Y=β0+β1X+ε

En aras de la simplicidad, olvidemos la intercepción , puede consultar este hilo para saber por qué es importante . Estos datos se pueden visualizar en un diagrama de dispersión. ¿Qué es el diagrama de dispersión? Imagine un espacio bidimensional (podría ser una habitación), los puntos de datos están "dispersos" por el lugar, donde los valores de ambas variables marcan sus posiciones de eje y eje . Lo que ya sabes es que de alguna manera se traduce en el modelo de regresión lineal. y xβ0yx

Para que quede claro, simplifiquemos aún más este ejemplo, como hicieron Gelman y Park. La simplificación que propusieron es dividir laβ 1Xvariable, es decir, área de la casa, en tres grupos: casas "pequeñas", "medianas" y "grandes" (describen cómo tomar una decisión óptima, pero esto es de menor importancia). Luego, calcule el tamaño promedio de la casa "pequeña" y el tamaño promedio de la casa "grande". Calcule también el precio promedio de la casa "pequeña" y de la "grande". Ahora, reduzca sus datos a dos puntos: los centros de las nubes de puntos de datos para casas pequeñas y grandes dispersas en el espacio y elimine todos los puntos de datos sobre casas "medianas". Te quedan dos puntos en el espacio bidimensional. La línea de regresión es la línea que conecta los puntos; puede pensar en ella como una dirección de un punto a otro. β1

Lo mismo sucede cuando tenemos más puntos, dispersos por el espacio: la línea de regresión encuentra su camino al minimizar su distancia cuadrada a cada punto. Entonces la línea va exactamente a través del centro de la nube de puntos dispersos en el espacio. En lugar de conectar dos puntos, puede pensar que conecta un número ilimitado de tales puntos centrales.


Gelman, A. y Park, DK (2012). División de un predictor en el cuarto o tercer trimestre superior y en el cuarto o tercer trimestre inferior. El estadístico estadounidense, 62 (4), 1-8.

Tim
fuente
3

La respuesta corta es sí. ¿Qué línea pasa mejor por el medio de todos los puntos que comprenden la totalidad o solo la superficie de un avión o una jabalina? Dibujalo; en tu cabeza o en una foto. Está buscando y en esa línea solitaria desde la cual cada punto (de interés, ya sea que los trace o no) que contribuiría a la desviación total mínima (entre puntos) de esa línea. Si lo hace a simple vista, implícitamente por sentido común, aproximará (notablemente bien) un resultado calculado matemáticamente. Para eso hay fórmulas que molestan la vista y pueden no tener sentido común. En problemas formalizados similares en ingeniería y ciencia, los dispersores todavía invitan a una evaluación preliminar a simple vista, pero en esos ámbitos se supone que uno tiene una probabilidad de "prueba" de que una línea es la línea. Se va cuesta abajo desde allí. Sin embargo, aparentemente está tratando de enseñarle a una máquina a medir (en efecto) los metes y límites de (a) un corral considerable y (b) ganado disperso dentro de él. Si le da a su máquina lo que equivale a una imagen (gráfica, algebraica) de los bienes raíces y los ocupantes, debería ser capaz de descubrir (línea media que divide cuidadosamente la gota en dos, descalcificación calculada en una línea) lo que quiere que haga. Cualquier libro de texto de estadísticas decente (pídales a los maestros o profesores que nombren más de uno) debe explicar el punto completo de la regresión lineal en primer lugar, y cómo hacerlo en los casos más simples (desde casos que no son simples). Un número de pretzels más tarde, lo tendrás abajo. Si le da a su máquina lo que equivale a una imagen (gráfica, algebraica) de los bienes raíces y los ocupantes, debería ser capaz de descubrir (línea media que divide cuidadosamente la gota en dos, descalcificación calculada en una línea) lo que quiere que haga. Cualquier libro de texto de estadísticas decente (pídales a los maestros o profesores que nombren más de uno) debe explicar el punto completo de la regresión lineal en primer lugar, y cómo hacerlo en los casos más simples (desde casos que no son simples). Un número de pretzels más tarde, lo tendrás abajo. Si le da a su máquina lo que equivale a una imagen (gráfica, algebraica) de los bienes raíces y los ocupantes, debería ser capaz de descubrir (línea media que divide cuidadosamente la gota en dos, descalcificación calculada en una línea) lo que quiere que haga. Cualquier libro de texto de estadísticas decente (pídales a los maestros o profesores que nombren más de uno) debe explicar el punto completo de la regresión lineal en primer lugar, y cómo hacerlo en los casos más simples (desde casos que no son simples). Un número de pretzels más tarde, lo tendrás abajo. Cualquier libro de texto de estadísticas decente (pídales a los maestros o profesores que nombren más de uno) debe explicar el punto completo de la regresión lineal en primer lugar, y cómo hacerlo en los casos más simples (desde casos que no son simples). Un número de pretzels más tarde, lo tendrás abajo. Cualquier libro de texto de estadísticas decente (pídales a los maestros o profesores que nombren más de uno) debe explicar el punto completo de la regresión lineal en primer lugar, y cómo hacerlo en los casos más simples (desde casos que no son simples). Un número de pretzels más tarde, lo tendrás abajo.


En re: el comentario de Silverfish a mi publicación supra (parece que no hay otra manera simple de agregar un comentario a ese comentario), sí, el OP es ciego, está aprendiendo aprendizaje automático y solicitó practicidad sin tramas ni gráficos, pero supongo que él es capaz de distinguir "visualizar" de "visión", visualiza y tiene verdaderas imágenes en su cabeza, y tiene una idea básica de todo tipo de objetos físicos en el mundo que lo rodea (casas, entre otros), por lo que aún puede " dibuje "tanto matemáticamente como de otra manera en su cabeza, y probablemente pueda poner una buena apariencia de 2D y 3D en papel. Una amplia gama de libros y otros textos hoy en día está disponible en braille físico, así como en voz electrónica en la propia computadora (como foros, diccionarios, etc.), y muchas escuelas para ciegos tienen planes de estudio bastante completos. En lugar del avión o la jabalina, el sofá o el bastón no serían necesariamente los más apropiados, y los textos estadísticos probablemente estén disponibles. Está menos preocupado por cómo las máquinas pueden aprender a trazar y graficar o calcular la regresión, luego por cómo las máquinas pueden aprender a hacer algo equivalente (y más básico) para comprender la regresión (si una máquina puede mostrarla, reaccionar a ella, seguir evítalo o lo que sea). El objetivo esencial (tanto para los estudiantes ciegos como para los videntes) sigue siendo cómo visualizar lo que puede ser no visual (como el concepto de linealidad en lugar de la instancia de la línea dibujada, desde antes de Euclides y Pitágoras), y cómo visualizar el propósito básico de un tipo especial de linealidad (regresión, cuyo punto básico se ajusta mejor a la menor desviación, desde principios de matemática y estadística). La salida de regresión de Fortran de un lineprinter es apenas "visual" hasta que se asimila mentalmente, pero incluso el punto básico de regresión es imaginario (una línea que no está allí hasta que se hace para un propósito).

Butte
fuente
2
Tal vez estoy malinterpretando esta respuesta, pero "dibujarlo, en tu cabeza o en una imagen" parece perder el sentido de la pregunta: la pregunta original es hecha por alguien que es completamente ciego y, por lo tanto, está buscando forma visual de abordar la regresión.
Silverfish
La respuesta de @Silverfish (demasiado larga para un comentario) se ha editado en la respuesta anterior
Gracias. Pensé que el voto negativo era un poco duro (no fui yo), pero algunas de las opciones de idioma en esta respuesta fueron desafortunadas (por ejemplo, hay varias referencias a hacer las cosas "a simple vista"). Sin embargo, puedo entender por qué desea distinguir entre la percepción visual y lo que se puede visualizar a través del "ojo de la mente".
Silverfish
2
Puedo visualizar cosas en mi mente. Es solo que no uso las mismas formas de visualización. No es cuestión de no usar drawo visualize. Es solo una cuestión de usar el concepto para derivar la visualización, en lugar de al revés. He descubierto que esto sucede en muchos lugares de las matemáticas. Para explicar un tema difícil, generalmente se utilizan formas e imágenes, en lugar de relacionar el cálculo con conceptos que el alumno conocería de la vida real.
Parham Doustdar
3

La razón por la cual los gráficos se utilizan universalmente para introducir una regresión simple, una respuesta predicha por un solo predictor, es que ayudan a la comprensión.

Sin embargo, creo que puedo dar algo del sabor que podría ayudar a comprender lo que está sucediendo. En esto, me enfocaré principalmente en tratar de transmitir algo de la comprensión que brindan, lo que puede ayudar con algunos de los otros aspectos que normalmente encontrarás al leer sobre regresión. Entonces, esta respuesta se ocupará principalmente de un aspecto particular de tu publicación.

Imagine que está sentado frente a una gran mesa rectangular, como un simple escritorio de oficina, uno con un brazo completo de largo (quizás 1.8 metros), tal vez la mitad de ese ancho.

Estás sentado frente a la mesa en la posición habitual, en medio de un lado largo. En esta mesa, se ha clavado una gran cantidad de clavos (con cabezas bastante lisas) en la superficie superior de modo que cada uno sobresalga un poco (lo suficiente como para sentir dónde están, y lo suficiente como para atarles un cordón o unir una banda elástica) )

Estas uñas están a diferentes distancias de su borde del escritorio, de tal manera que hacia un extremo (digamos el extremo izquierdo) generalmente están más cerca de su borde del escritorio y luego a medida que se mueve hacia el otro extremo, las cabezas de las uñas tienden a estar más lejos de tu borde.

Además, imagine que sería útil tener una idea de cuán lejos, en promedio, están las uñas de su borde en cualquier posición a lo largo de su borde.

Elija un lugar a lo largo del borde del escritorio y coloque la mano allí, luego extienda la mano hacia adelante directamente a través de la mesa, arrastrando suavemente la mano directamente hacia usted y luego otra vez, moviendo la mano hacia adelante y hacia atrás sobre las cabezas de las uñas. Te encuentras con varias docenas de golpes de estas uñas, las que están dentro de esa anchura estrecha de tu mano (a medida que se aleja directamente de tu borde, a una distancia constante del extremo izquierdo del escritorio), una sección o tira, de aproximadamente diez centímetros de ancho .

La idea es calcular una distancia promedio a un clavo desde el borde del escritorio en esa pequeña sección. Intuitivamente es solo la mitad de los golpes que golpeamos, pero si medimos cada distancia a un clavo en esa sección de escritorio de ancho de mano, podríamos calcular esos promedios fácilmente.

Por ejemplo, podríamos hacer uso de un cuadrado en T cuya cabeza se desliza a lo largo del borde del escritorio y cuyo eje corre hacia el otro lado del escritorio, pero justo encima del escritorio para que no golpeemos los clavos cuando se desliza hacia la izquierda o hacia la derecha: cuando pasamos un clavo determinado, podemos obtener su distancia a lo largo del eje del cuadrado en T.

Entonces, en una progresión de lugares a lo largo de nuestro borde, repetimos este ejercicio de encontrar todas las uñas en una franja de ancho de mano corriendo hacia y lejos de nosotros y encontrar su distancia promedio de distancia. Quizás dividimos el escritorio en tiras de ancho de mano a lo largo de nuestro borde (para que cada clavo se encuentre exactamente en una tira).

Ahora imagine que hay, digamos, 21 de esas tiras, la primera en el borde izquierdo y la última en el borde derecho. Los medios se alejan de nuestro escritorio a medida que avanzamos a través de las tiras.

Estos medios forman un estimador de regresión no paramétrico simple de la expectativa de y (nuestra distancia) dada x (distancia a lo largo de nuestro borde desde el extremo izquierdo), es decir, E (y | x). Específicamente, este es un estimador de regresión no paramétrico agrupado, también llamado un regresograma

Si esas medias de tiras aumentaron regularmente, es decir, la media generalmente aumentaba aproximadamente la misma cantidad por tira a medida que nos movíamos a través de las tiras, entonces podríamos estimar mejor nuestra función de regresión suponiendo que el valor esperado de y era lineal función de x, es decir, que el valor esperado de y dado x era una constante más un múltiplo de x. Aquí, la constante representa dónde tienden a estar las uñas cuando en x es cero (a menudo podríamos colocar esto en el extremo izquierdo pero no tiene que estar), y el múltiplo particular de x es qué tan rápido en promedio es la media cambia a medida que nos movemos un centímetro (digamos) a la derecha.

Pero, ¿cómo encontrar una función tan lineal?

Imagine que enrollamos una banda de goma sobre cada cabeza de clavo, y unimos cada una a un palo largo y delgado que se encuentra justo encima del escritorio, encima de las uñas, de modo que quede en algún lugar cerca del "centro" de cada tira que teníamos para.

Adjuntamos las bandas de tal manera que solo se estiran en la dirección hacia y lejos de nosotros (no a la izquierda ni a la derecha), se dejan a sí mismas para que tomen y hagan que su dirección de estiramiento en ángulo recto con el palo, pero aquí lo evitamos, de modo que su dirección de estiramiento permanezca solo en las direcciones hacia o lejos de nuestro borde del escritorio. Ahora dejamos que el palo se asiente a medida que las bandas lo empujan hacia cada uña, con las uñas más distantes (con bandas de goma más estiradas) tirando correspondientemente más fuerte que las uñas cerca del palo.

Entonces, el resultado combinado de todas las bandas que tiran del palo sería (idealmente, al menos) tirar del palo para minimizar la suma de las longitudes al cuadrado de las bandas de goma estiradas; en esa dirección directamente a través de la mesa, la distancia desde nuestro borde de la mesa hasta el palo en cualquier posición x dada sería nuestra estimación del valor esperado de y dada x.

Esto es esencialmente una estimación de regresión lineal.

Ahora, imagine que en lugar de las uñas, tenemos muchas frutas (como manzanas pequeñas quizás) que cuelgan de un árbol grande y deseamos encontrar la distancia promedio de las frutas sobre el suelo, ya que varía según la posición en el suelo. Imagine que en este caso las alturas sobre el suelo se hacen más grandes a medida que avanzamos y un poco más grandes a medida que avanzamos hacia la derecha, nuevamente de manera regular, por lo que cada paso hacia adelante generalmente cambia la altura media en aproximadamente la misma cantidad, y cada paso hacia el La derecha también cambiará la media en una cantidad aproximadamente constante (pero esta cantidad de cambio en la media de avance gradual es diferente a la cantidad de cambio de avance).

Si minimizamos la suma de las distancias verticales cuadradas de las frutas a una hoja delgada y plana (tal vez una hoja delgada de plástico muy rígido) para descubrir cómo cambia la altura media a medida que avanzamos o avanzamos hacia la derecha, eso sería Una regresión lineal con dos predictores: una regresión múltiple.

Estos son los únicos dos casos que las tramas pueden ayudar a comprender (pueden mostrar rápidamente lo que acabo de describir en detalle, pero espero que sepan que tienen una base para conceptualizar las mismas ideas). Más allá de esos dos casos más simples, solo nos quedan las matemáticas.

Ahora tome el ejemplo del precio de su casa; puede representar el área de cada casa por una distancia a lo largo de su borde del escritorio: represente el tamaño de la casa más grande como una posición cerca del borde derecho, el tamaño de cada otra casa estará en una posición más a la izquierda donde cierta cantidad de centímetros representará Número de metros cuadrados. Ahora la distancia representa el precio de venta. Represente la casa más cara como una distancia particular cerca del borde más alejado del escritorio (como siempre, el borde más alejado de su silla), y cada centímetro desplazado representará un número de Rials.

Por el momento, imagine que elegimos la representación para que el borde izquierdo del escritorio corresponda a un área de la casa de cero y el borde cercano a un precio de la casa de 0. Luego colocamos un clavo para cada casa.

Probablemente no tengamos clavos cerca del extremo izquierdo de nuestro borde (pueden estar principalmente hacia la derecha y lejos de nosotros) porque esta no es necesariamente una buena elección de escala, pero su elección de un modelo sin intercepción hace que esto Una mejor manera de discutirlo.

Ahora, en su modelo, obliga al palo a pasar a través de un bucle de cuerda en la esquina izquierda del borde cercano del escritorio, lo que obliga al modelo ajustado a tener un precio cero para el área cero, lo que puede parecer natural, pero imagine si hay algunos componentes del precio bastante constantes que afectaron cada venta. Entonces tendría sentido tener la intersección diferente de cero.

En cualquier caso, con la adición de ese bucle, el mismo ejercicio de banda elástica que antes encontrará nuestra estimación de mínimos cuadrados de la línea.

Glen_b
fuente
Wow, gracias por esta larga respuesta espacial. Explicó mucho Gracias.
Parham Doustdar
2

¿Te has encontrado con el tipo de tostadora que sueles encontrar en los hoteles? Pones pan en una cinta transportadora en un extremo y sale como pan tostado en el otro. Desafortunadamente, en la tostadora de este hotel barato, todos los calentadores se han movido a alturas y distancias aleatorias desde la entrada a la tostadora. No puede mover los calentadores ni doblar la trayectoria de la correa (que es recta, por cierto (aquí es donde entra la broca lineal), pero puede alterar la ALTURA y la INCLINACIÓN de la correa.

Dadas las posiciones de todos los calentadores, la regresión lineal le indicará la altura y el ángulo correctos para colocar el cinturón para obtener la mayor cantidad de calor en general. Esto se debe a que la regresión lineal minimizará la distancia promedio entre la tostada y los calentadores.

Mi primer trabajo de vacaciones fue hacer regresiones lineales a mano. ¡El tipo que dijo que no quieres hacer eso es CORRECTO!

Chris J
fuente
2

Mi explicación favorita de la regresión lineal es geométrica, pero no visual. Trata el conjunto de datos como un punto único en un espacio de alta dimensión, en lugar de dividirlo en una nube de puntos en un espacio bidimensional.

El área y el precio de una casa son un par de números, que puedes considerar como las coordenadas de un punto en un espacio bidimensional. Las áreas y los precios de mil casas son miles de pares de números, que puedes considerar como las coordenadas de un punto en un espacio de dos mil dimensiones. Por conveniencia, llamaré espacio de dos mil dimensiones "espacio de datos". Su conjunto de datos es un único punto en el espacio de datos.ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

Si la relación entre el área y el precio fuera perfectamente lineal, el punto ubicaría en una región muy especial del espacio de datos, lo que llamaré la "hoja lineal". Consiste en los puntos Los números y pueden variar, pero se arreglan para que sean las mismas áreas que aparecen en su conjunto de datos. Llamo a la hoja lineal una "hoja" porque es bidimensional: un punto en ella está especificado por las dos coordenadas yD

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ. Si desea tener una idea de cómo se forma la lámina lineal, imagine un cable delgado y recto estirado a través del espacio tridimensional. La hoja lineal es así: es perfectamente plana y su dimensión es muy baja en comparación con la dimensión del espacio en el que se encuentra dentro.

En un vecindario real, la relación entre el área y el precio no será perfectamente lineal, por lo que el punto no se ubicará exactamente en la hoja lineal. Sin embargo, podría quedar muy cerca de la hoja lineal. El objetivo de la regresión lineal es encontrar el punto en la hoja lineal que se sienta el más cercano al punto de datos . Ese punto es el mejor modelo lineal para los datos.DM(ρ,β)D

Usando el teorema de Pitágoras, puedes descubrir que el cuadrado de la distancia entre y es En otras palabras, la distancia entre el punto de datos y el punto del modelo es el error cuadrado total del modelo. Minimizar el error cuadrado total de un modelo es lo mismo que minimizar la distancia entre el modelo y los datos en el espacio de datos.M ( ρ , β ) [ p 1 - ( ρ a 1 + β ) ] 2 + + [ p 1000 - ( ρ a 1000 + β ) ] 2 .DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.

Como señaló Chris Rackauckas , el cálculo ofrece una forma muy práctica de encontrar las coordenadas y que minimizan la distancia entre y .β D M ( ρ , β )ρβDM(ρ,β)

Vectornaut
fuente
1

Las respuestas de @Chris Rackauckas y @ EDM son acertadas. Hay muchas formas de abordar la regresión lineal simple que no requieren un trazado o explicaciones visuales de la estimación de mínimos cuadrados ordinarios, y dan explicaciones muy sólidas de lo que realmente sucede cuando se ejecuta OLS.

Podría agregar que al usar diagramas de dispersión como una herramienta de instrucción para aprender cualquier tipo de procedimiento de modelado nuevo, ya sea un modelo paramétrico de la vieja escuela, cosas avanzadas de aprendizaje automático o algoritmos bayesianos, los gráficos pueden ayudar a reducir el tiempo que lleva aprender qué algoritmo hace.

Los gráficos también son muy importantes para el análisis exploratorio de datos cuando comienza a trabajar con un nuevo conjunto de datos. He tenido situaciones en las que recopilé muchos datos, elaboré la teoría, planeé cuidadosamente mi modelo y luego lo ejecuté, solo para terminar con resultados que esencialmente no tenían poder predictivo. Trazar relaciones bivariadas puede eliminar algunas conjeturas: en su ejemplo, es posible que el precio de la vivienda esté relacionado linealmente con el área, pero tal vez la relación no sea lineal. Los diagramas de dispersión lo ayudan a decidir si necesita términos de orden superior en su regresión, o si desea usar un método diferente al de la regresión lineal, o si desea usar algún tipo de método no paramétrico.

Chris K
fuente
1

Google para Anscombe Quartet.

Muestra 4 conjuntos de datos que al inspeccionar numéricamente no muestran mucha diferencia.

Sin embargo, al crear un diagrama de dispersión visual, las diferencias se vuelven dramáticamente visibles.

Da una visión bastante clara de por qué siempre debe trazar sus datos, regresión o no regresión :-)

ctd2015
fuente
0

Queremos tener una solución que minimice la diferencia entre los valores predichos y los reales.

Suponemos que es decir, hay una relación lineal.y=bx+a

No nos importa si la diferencia entre predicho y real es positivo o negativo asume que la distribución de los errores de posee ciertas propiedades .yyy

Si suponemos que la distribución de errores se distribuye normalmente, resulta que hay una solución analítica para este problema de minimización. La suma de cuadrados de diferencias es el mejor valor para minimizar para un mejor ajuste. Pero no se requiere normalidad en el caso general.

No hay mucho más en realidad.

La interpretación geométrica es útil porque la suma de cuadrados tiene la interpretación en forma de suma de distancias de los puntos en el diagrama de dispersión desde la línea . Y el ojo humano es muy bueno para aproximar la línea que corresponde al mejor ajuste. Así que fue útil antes de que tuviéramos computadoras para encontrar el ajuste rápidamente.y=bx+a

Hoy en día se deja más como una ayuda de comprensión, pero no es necesario tener que entender realmente la regresión lineal.

EDITAR: reemplazó la suposición de normalidad de errores con una lista correcta pero menos concisa. Se requería normalidad para tener una solución analítica y se puede suponer para muchos casos prácticos y en ese caso la suma de cuadrados es óptima no solo para el estimador lineal y también maximiza la probabilidad.

Si además se cumple el supuesto de normalidad de la distribución de errores, entonces la Suma de cuadrados es óptima entre estimadores lineales y no lineales y está maximizando la probabilidad.

Diego
fuente
1
La suposición de distribución normal no es necesaria para nada de lo que describió
Aksakal
Por favor revise esta explicación stats.stackexchange.com/a/1516/98469
Diego
El enlace no tiene nada que ver con tu respuesta. Si se expandió a propiedades de muestra pequeñas o MLE, entonces podría incorporar el supuesto de distribución normal, pero tal como está la descripción de OLS en su respuesta no necesita distribución normal. De hecho, para minimizar la suma de cuadrados, no necesita ninguna distribución o estadística en absoluto. Es puro álgebra.
Aksakal
El punto es acerca de por qué estamos minimizando la suma de cuadrados y no alguna otra métrica. No se trata de cómo minimizar la suma de cuadrados.
Diego
Minimizar la suma de cuadrados no tiene nada que ver con la distribución normal. Es solo tu función de pérdida. Se puede usar cualquier otra distribución de errores con esta función de pérdida. Necesita las distribuciones en ciertos casos, por ejemplo, si desea hacer inferencias sobre valores de parámetros en muestras pequeñas, etc. Incluso en este caso podría usar otras distribuciones, no estoy seguro de por qué está atascado en la normalidad.
Aksakal