|
Matemáticas. Regresión Definicións e conceptos teóricos
Introdución
O nome de regresión
provén
dos
traballos de
Francis Galton en bioloxía a finais do século
XIX.
Galtón estudiou a dependencia da estatura dos fillos (y)
respecto a dos seus pais (x), atopando o que denominou
"regresión" a media. Dende entón, os modelos
estatísticos que explican a dependencia dunha variable y
respecto doutra ou varias variables x denomínanse modelos
de regresión.
Con anterioridade, Gauss utiliza por vez primeira o método
de
mínimos cadrados, calculando a órbita que
describía un asteroide, o que se puxo por nome Ceres: Gauss,
a
partir dunhas poucas observacións do obxecto deduce a
posición exacta na que tiña que atoparse este
asteroide.
¿En qué medida
están
relacionados a
altura e o peso dun individuo? Se somos capaces de encontrar unha forma
de medir adecuadamente esa relación, daquela, podemos
decidir se
a altura e o peso dun individuo están mais relacionados
entre si
que a altura dese individuo e a altura do seu pai, por exemplo.
Cando se busca unha medida para medir esa relación dise que
se
está buscando medir a correlación entre esas
dúas
variables.
Por tanto, averiguar a correlación entre dúas
variables
refírese a calcular unha medida da relación entre
esas
dúas variables.
Matematicamente, un modelo de
regresión
estudia as
asociacións cuantitativas entre unha ou varias variables
explicativas x e unha variable resposta y. Dependendo da
función
que se utilice para expresar a relación entre a variable
resposta e a variable explicativa falarase de regresión
lineal,
polinómica, exponencial, potencial, loxística,
etc.
Polo tanto, calcular unha regresión entre dúas
variables
consiste en atopar unha fórmula ou ecuación que
represente a relación aproximada entre esas dúas
variables.
Tendo os datos da renda e do
número de
vehículos
cada 1000 habitantes dos 94 concellos da provincia da Coruña,
poderíamos buscar a relación entre eses valores.
Para iso
podemos representar nun gráfico cartesiano eses 94 puntos
(x,y),
onde x e y serían a renda e o número de
vehículos
por habitante de cada concello. O conxunto de puntos que así
se
obtén chámase diagrama de
dispersión ou nube de puntos .
Exemplo:
Relación
entre
renda e vehículos cada 1000 habitantes dos concellos da provincia
da Coruña no ano 2002.
Acceso aos datos
Normalmente sobre o eixo x
represéntase
a
variable
explicativa (nesta caso a renda) e no eixo y a variables resposta (os
vehículos cada 1000 habitantes).
Coeficiente de correlación
lineal en
regresión
O diagrama de dispersión
dá
unha
idea do grado
de relación ou dependencia que existe entre dúas
variables x e y que forman unha variable bidimensional (x,y).
A correlación é
positiva ou
directa se ao
aumentar unha variable aumenta a outra, a correlación
é
negativa ou inversa se ao aumentar unha variable disminúe a
outra e, por último, a correlación é
nula se non
existe ningún tipo de dependencia entre as variables.
A dependencia é máis
forte
canto
máis
estreita é a nube de puntos do diagrama de
dispersión e
máis débil canto máis ancha
é. Para medir a
dependencia lineal emprégase o coeficiente de
correlación lineal de Pearson .
Para estudar este coeficiente é
necesario
introducir primeiro un novo parámetro: a covarianza
ou varianza conxunta das
variables x e y.
A covarianza dunha variable (x,y)
é a
media
aritmética dos produtos das desviacións de cada
variable
respecto da media.
A covarianza pode ser positiva, negativa ou
nula.
Se a
covarianza é nula as variables son linealmente
independentes,
aínda que podería existir entre elas outro tipo
de
dependecia non lineal.
O coeficiente de correlación
lineal de
Pearson defínese como:
Este coeficiente aplícase para a
comparación de
distintas rectas de regresión entre si, sen embargo, o seu
uso
indiscriminado pode inducir a equívocos.
O coeficiente de correlación
toma
valores no
intervalo
[-1,1] e danos unha idea de ata que punto o axuste lineal é
razoable:
- Se r é próximo a
-1: o
axuste
é aceptablemente bo, distribuíndose as
observacións (xi, yi)
ó redor dunha recta de pendiente negativa
- Se r é próximo a
0: o
axuste
non é
aceptable, indicando que non existe relación lineal entre as
variables
- Se r é próximo a
1: o
axuste
é aceptablemente bo, distribuíndose as
observacións (xi, yi)
ó redor dunha recta de pendiente positiva
Exemplo:
Relación
entre
renda e vehículos cada 1000 habitantes dos concellos da provincia
da Coruña no ano 2002.
Neste caso calcularemos a covarianza e o
coeficiente de
correlación
Obtense un coeficiente de
correlación
de
0,54 o que
nos está indicando que a dependencia é positiva,
aínda que o axuste non é perfecto pois
alónxase
bastante do 1.
Modelo de regresión lineal
Os matemáticos intentaron atopar
un
procedemento
común para seleccionar a mesma recta de axuste, para a mesma
nube de puntos. A recta de axuste seleccionada chamada recta de
regresión por mínimos cadrados, obtense
seleccionando de
entre todas as rectas de axuste posibles, aquela que faga
mínima
a suma dos cadrados das distancias verticais dos puntos á
recta,
ou o que é o mesmo a suma da área dos seguintes
cadrados:

Dada unha nube de puntos {(xi,yi)}i=1,..n
trátase de estudiar a relación lineal entre a
variable explicativa x e a variable resposta y.
Comezarase o estudo debuxando estes pares (xi,yi)
para obter unha primeira visión da relación
existente
entre ámbalas variables. A hipótese
básica deste
modelo é que os factores que inflúen na variable
resposta
y dependen, de forma lineal, da variable explicativa x e dunha
perturbación aleatoria Ei mediante a
fórmula:
O fin que se persegue é obter
estimacións dos
parámetros a e b. O resultado será a chamada
recta de
regresión Y=a+bX. Nestas
relacións é importante estudar os chamados
residuos, ei, definidos como a diferencia entre
o valor observado e o previsto polo modelo:
Metodoloxía
Considerando que partimos dun conxunto de
pares
{(xi,yi)}i=1,..n
o método de mínimos cadrados consiste en atopar
os valores que minimizan a suma de cadrados seguinte:
O que equivale a:
Destas dúas igualdades
dedúcense:
que se chaman
ecuacións
normais
da regresión e que permiten despexar os
parámetros a estimar, resultando:
Co que se obtén a recta estimada
como:
Substituíndo nesta
ecuación
os
valores de x
pódese obter, con certa aproximación, os valores
esperados para a variable y, que se chamarán estimacións
ou previsións
A fiabilidade destas estimacións
é maior canto
máis estreita é a nube de puntos do diagrama de
dispersión. Se a nube é moi ancha, o que equivale
a dicir
que o valor absoluto de r é pequeno, non ten sentido
realizar
ningún tipo de estimación ou
previsión, polo
tanto, non se debe calcular a recta de regresión.
Exemplo:
Relación
entre
renda e vehículos cada 1000 habitantes dos concellos da provincia
da Coruña
Calculamos en primeiro lugar os
parámetros a
e b da recta de regresión:
Entón, a recta de
regresión
quedaría
expresada do seguinte xeito: y = 198,9 + 0,025x e
represéntase no
seguinte gráfico
Recta de
regresión
Supoñamos que nos falta o dato
do
número de
vehículos turismo cada 1000 habitantes para o concello de Ponteceso,
¿cómo podemos facer para estimalo, sabendo que a
renda
por habitante do concello é 8.216 € por habitante?
Substituíndo na
ecuación da
recta
de
regresión os valores da renda por habitante (na x)
pódese
obter, con certa aproximación, as estimacións ou
valores esperados para o
número de vehículos turismo por habitante.
Polo tanto, o número de
vehículos
turismo cada 1000 habitantes para o concello de Ponteceso sería:
y= 198,9+0,025 * 8.216 = 402,9
vehículos
turismo cada 1000 habitantes
Influencia dos valores atípicos
Un problema xeral a todos os procedementos
estatísticos baseados na media aritmética
é a
influencia de valores atípicos, pois pode ocorrer que un
só valor arrastre a toda a media aritmética
detrás
de si.
Pero débese ter coidado pois por
moi
anómalo
que poida parecer un dato pode corresponder a un dato real e a
súa influencia debe ser tida en conta.
Exemplo: Relación entre a
capacidade
estrutural
(número de prazas) dos establecementos de turismo rural
galegos
e o número de viaxeiros nas diferentes
agrupacións
comarcais no ano 2005
| Agrupacións comarcais |
Capacidade estrutural (nº de prazas)
|
Viaxeiros entrados
|
| Santiago |
190 |
6.702 |
| A Coruña: Leste
|
515 |
12.623 |
| A Coruña: Oeste
|
223 |
8.049 |
| A
Coruña: Suroeste |
269 |
7.754 |
| Lugo |
134 |
4.266 |
| A Mariña Occidental
|
119 |
4.207 |
| A Mariña Central e Terra Chá
|
160 |
3.263 |
| A Mariña Oriental
|
128 |
4.053 |
| Lugo: Suroeste
|
679 |
16.456 |
| Lugo: Leste
|
376 |
10.986 |
| Ourense |
144 |
4.272 |
| Ourense: Oeste
|
266 |
8.027 |
| Ourense: Sur
|
156 |
2.384 |
| Ourense: Norleste
|
271 |
13.874 |
| Pontevedra |
168 |
2.277 |
| O Salnés
|
185 |
4.507 |
| Vigo |
143 |
4.442 |
| O Baixo Miño
|
130 |
2.914 |
| Pontevedra: Interior
|
1035 |
16.874 |
| Morrazo |
96 |
3.793 |
Podemos apreciar neste gráfico
que
existe
varios datos
atípicos que condicionan a forma da recta de
regresión.
Observamos como o par (1035, 16.874), que corresponde a
Pontevedra:Interior, é un dato que condiciona a forma da
recta
de regresión. Se eliminamos este par e calculamos de novo a
recta esta sairía lixeiramente distinta.
Actividade:
No seguinte ligazón
terás
acceso
a datos
máis actuais para ver a relación entre o
número de
prazas e o número de viaxeiros:
Turismo rural
Con estes novos datos:
- Calcular o coeficiente de
correlación
lineal
- Hallar a media do número de
prazas
e do
número de viaxeiros
- Representar a nube de puntos
- Calcular a recta que mellor se axusta a
nube
de
puntos
- Se tivésemos unha nova
agrupación comarcal
cun número de prazas igual a 200, ¿cal
sería o
valor estimado para o número de viaxeiros?
|