Portal educativo IGE

Matemáticas. Regresión
Definicións e conceptos teóricos


Introdución

O nome de regresión provén dos traballos de Francis Galton en bioloxía a finais do século XIX. Galtón estudiou a dependencia da estatura dos fillos (y) respecto a dos seus pais (x), atopando o que denominou "regresión" a media. Dende entón, os modelos estatísticos que explican a dependencia dunha variable y respecto doutra ou varias variables x denomínanse modelos de regresión. Con anterioridade, Gauss utiliza por vez primeira o método de mínimos cadrados, calculando a órbita que describía un asteroide, o que se puxo por nome Ceres: Gauss, a partir dunhas poucas observacións do obxecto deduce a posición exacta na que tiña que atoparse este asteroide.

¿En qué medida están relacionados a altura e o peso dun individuo? Se somos capaces de encontrar unha forma de medir adecuadamente esa relación, daquela, podemos decidir se a altura e o peso dun individuo están mais relacionados entre si que a altura dese individuo e a altura do seu pai, por exemplo. Cando se busca unha medida para medir esa relación dise que se está buscando medir a correlación entre esas dúas variables. Por tanto, averiguar a correlación entre dúas variables refírese a calcular unha medida da relación entre esas dúas variables.

Matematicamente, un modelo de regresión estudia as asociacións cuantitativas entre unha ou varias variables explicativas x e unha variable resposta y. Dependendo da función que se utilice para expresar a relación entre a variable resposta e a variable explicativa falarase de regresión lineal, polinómica, exponencial, potencial, loxística, etc. Polo tanto, calcular unha regresión entre dúas variables consiste en atopar unha fórmula ou ecuación que represente a relación aproximada entre esas dúas variables.

Tendo os datos da renda e do número de vehículos cada 1000 habitantes dos 94 concellos da provincia da Coruña, poderíamos buscar a relación entre eses valores. Para iso podemos representar nun gráfico cartesiano eses 94 puntos (x,y), onde x e y serían a renda e o número de vehículos por habitante de cada concello. O conxunto de puntos que así se obtén chámase diagrama de dispersión ou nube de puntos .

Exemplo: Relación entre renda e vehículos cada 1000 habitantes dos concellos da provincia da Coruña no ano 2002. Acceso aos datos


Normalmente sobre o eixo x represéntase a variable explicativa (nesta caso a renda) e no eixo y a variables resposta (os vehículos cada 1000 habitantes).

Coeficiente de correlación lineal en regresión

O diagrama de dispersión dá unha idea do grado de relación ou dependencia que existe entre dúas variables x e y que forman unha variable bidimensional (x,y).

A correlación é positiva ou directa se ao aumentar unha variable aumenta a outra, a correlación é negativa ou inversa se ao aumentar unha variable disminúe a outra e, por último, a correlación é nula se non existe ningún tipo de dependencia entre as variables.

A dependencia é máis forte canto máis estreita é a nube de puntos do diagrama de dispersión e máis débil canto máis ancha é. Para medir a dependencia lineal emprégase o coeficiente de correlación lineal de Pearson .

Para estudar este coeficiente é necesario introducir primeiro un novo parámetro: a covarianza ou varianza conxunta das variables x e y.

A covarianza dunha variable (x,y) é a media aritmética dos produtos das desviacións de cada variable respecto da media.


A covarianza pode ser positiva, negativa ou nula. Se a covarianza é nula as variables son linealmente independentes, aínda que podería existir entre elas outro tipo de dependecia non lineal.

O coeficiente de correlación lineal de Pearson defínese como:


Este coeficiente aplícase para a comparación de distintas rectas de regresión entre si, sen embargo, o seu uso indiscriminado pode inducir a equívocos.

O coeficiente de correlación toma valores no intervalo [-1,1] e danos unha idea de ata que punto o axuste lineal é razoable:

  • Se r é próximo a -1: o axuste é aceptablemente bo, distribuíndose as observacións (xi, yi) ó redor dunha recta de pendiente negativa
  • Se r é próximo a 0: o axuste non é aceptable, indicando que non existe relación lineal entre as variables
  • Se r é próximo a 1: o axuste é aceptablemente bo, distribuíndose as observacións (xi, yi) ó redor dunha recta de pendiente positiva

Exemplo: Relación entre renda e vehículos cada 1000 habitantes dos concellos da provincia da Coruña no ano 2002.

Neste caso calcularemos a covarianza e o coeficiente de correlación



Obtense un coeficiente de correlación de 0,54 o que nos está indicando que a dependencia é positiva, aínda que o axuste non é perfecto pois alónxase bastante do 1.

Modelo de regresión lineal

Os matemáticos intentaron atopar un procedemento común para seleccionar a mesma recta de axuste, para a mesma nube de puntos. A recta de axuste seleccionada chamada recta de regresión por mínimos cadrados, obtense seleccionando de entre todas as rectas de axuste posibles, aquela que faga mínima a suma dos cadrados das distancias verticais dos puntos á recta, ou o que é o mesmo a suma da área dos seguintes cadrados:

Dada unha nube de puntos {(xi,yi)}i=1,..n trátase de estudiar a relación lineal entre a variable explicativa x e a variable resposta y.

Comezarase o estudo debuxando estes pares (xi,yi) para obter unha primeira visión da relación existente entre ámbalas variables. A hipótese básica deste modelo é que os factores que inflúen na variable resposta y dependen, de forma lineal, da variable explicativa x e dunha perturbación aleatoria Ei mediante a fórmula:


O fin que se persegue é obter estimacións dos parámetros a e b. O resultado será a chamada recta de regresión Y=a+bX. Nestas relacións é importante estudar os chamados residuos, ei, definidos como a diferencia entre o valor observado e o previsto polo modelo:

Metodoloxía

Considerando que partimos dun conxunto de pares {(xi,yi)}i=1,..n o método de mínimos cadrados consiste en atopar os valores que minimizan a suma de cadrados seguinte:


O que equivale a:



Destas dúas igualdades dedúcense:


que se chaman ecuacións normais da regresión e que permiten despexar os parámetros a estimar, resultando:


Co que se obtén a recta estimada como:


Substituíndo nesta ecuación os valores de x pódese obter, con certa aproximación, os valores esperados para a variable y, que se chamarán estimacións ou previsións

A fiabilidade destas estimacións é maior canto máis estreita é a nube de puntos do diagrama de dispersión. Se a nube é moi ancha, o que equivale a dicir que o valor absoluto de r é pequeno, non ten sentido realizar ningún tipo de estimación ou previsión, polo tanto, non se debe calcular a recta de regresión.

Exemplo: Relación entre renda e vehículos cada 1000 habitantes dos concellos da provincia da Coruña

Calculamos en primeiro lugar os parámetros a e b da recta de regresión:


Entón, a recta de regresión quedaría expresada do seguinte xeito: y = 198,9 + 0,025x e represéntase no seguinte gráfico

Recta de regresión


Supoñamos que nos falta o dato do número de vehículos turismo cada 1000 habitantes para o concello de Ponteceso, ¿cómo podemos facer para estimalo, sabendo que a renda por habitante do concello é 8.216 € por habitante?

Substituíndo na ecuación da recta de regresión os valores da renda por habitante (na x) pódese obter, con certa aproximación, as estimacións ou valores esperados para o número de vehículos turismo por habitante.

Polo tanto, o número de vehículos turismo cada 1000 habitantes para o concello de Ponteceso sería:

y= 198,9+0,025 * 8.216 = 402,9 vehículos turismo cada 1000 habitantes

Influencia dos valores atípicos

Un problema xeral a todos os procedementos estatísticos baseados na media aritmética é a influencia de valores atípicos, pois pode ocorrer que un só valor arrastre a toda a media aritmética detrás de si.

Pero débese ter coidado pois por moi anómalo que poida parecer un dato pode corresponder a un dato real e a súa influencia debe ser tida en conta.

Exemplo: Relación entre a capacidade estrutural (número de prazas) dos establecementos de turismo rural galegos e o número de viaxeiros nas diferentes agrupacións comarcais no ano 2005

Agrupacións comarcais Capacidade estrutural (nº de prazas) Viaxeiros entrados
Santiago 190 6.702
A Coruña: Leste 515 12.623
A Coruña: Oeste 223 8.049
A Coruña: Suroeste 269 7.754
Lugo 134 4.266
A Mariña Occidental 119 4.207
A Mariña Central e Terra Chá 160 3.263
A Mariña Oriental 128 4.053
Lugo: Suroeste 679 16.456
Lugo: Leste 376 10.986
Ourense 144 4.272
Ourense: Oeste 266 8.027
Ourense: Sur 156 2.384
Ourense: Norleste 271 13.874
Pontevedra 168 2.277
O Salnés 185 4.507
Vigo 143 4.442
O Baixo Miño 130 2.914
Pontevedra: Interior 1035 16.874
Morrazo 96 3.793


Podemos apreciar neste gráfico que existe varios datos atípicos que condicionan a forma da recta de regresión. Observamos como o par (1035, 16.874), que corresponde a Pontevedra:Interior, é un dato que condiciona a forma da recta de regresión. Se eliminamos este par e calculamos de novo a recta esta sairía lixeiramente distinta.


Actividade:

No seguinte ligazón terás acceso a datos máis actuais para ver a relación entre o número de prazas e o número de viaxeiros: Turismo rural

Con estes novos datos:

  • Calcular o coeficiente de correlación lineal
  • Hallar a media do número de prazas e do número de viaxeiros
  • Representar a nube de puntos
  • Calcular a recta que mellor se axusta a nube de puntos
  • Se tivésemos unha nova agrupación comarcal cun número de prazas igual a 200, ¿cal sería o valor estimado para o número de viaxeiros?