Portal educativo IGE

ver o mapa do portal

Matemáticas. Estatística Descritiva
Definicións e conceptos teóricos


Poboación

É o conxunto de individuos que se desexa estudar e que xeralmente soe ser inaccesible.

Exemplos:

  • Os fogares galegos obxecto de investigación na Enquisa conxuntural a fogares (ECF) do Instituto Galego de Estatística.
  • Se estamos interesados en coñecer o que opinan os electores sobre algúns líderes políticos, o colectivo que é obxecto de interese é o dos galegos que poden votar, é dicir, os maiores de 18 anos.

Individuo

Cada elemento da poboación é un individuo. Os individuos dunha poboación poden ser obxectos, intervalos de tempo, animais, persoas... dependendo do tipo de poboación que se estea a estudar.

Exemplo: cada fogar galego investigado na ECF.

Mostra

É o subconxunto de individuos da poboación, accesible e limitado sobre o que se recollen os datos co fin de obter conclusións que se podan xeralizar a toda a poboación.

¿Por que estudar mostras en lugar de poboacións?

  • Moitas veces resulta inviable estudar a toda a poboación.
  • Afórrase tempo: estudar a menos individuos leva menos tempo que estudar a toda a poboación.
  • Afórranse costes

Exemplo: fogares galegos (dos aproximadamente 1.000.000) aos cales se lles fará unha serie de preguntas para coñecer as súas condicións de vida.

Tamaño mostral

É o número de elementos que contén a mostra. Denotámolo por n. Se a mostra é demasiado pequena non poderemos obter dela ningunha conclusión que mereza a pena. Non obstante, con mostras relativamente grandes conséguense imaxes sorprendentemente boas da realidade.

¿Como deben ser as mostras?

Hai que sinalar que a calidade da mostra é tan importante coma o seu tamaño. Ao substituír o estudo da poboación polo da mostra, cométense erros pero, con eles xa contamos e poden controlarse. Non obstante, se a mostra está mal elixida (non é representativa) prodúcense erros adicionais imprevistos e incontrolables (nesgos).
Unha condición case indispensable para que unha mostra sexa representativa é que os seus elementos sexan elixidos aleatoriamente, ao chou. Se a elección é subxectiva, os prexuízos de quen fai a selección proxéctanse no resultado da mostra, que reflictirá o que esa persoa cree que é a realidade.
Dise que a mostraxe é aleatoria cando todos os individuos da mostra se elixen ao chou, de modo que todos os individuos da poboación teñen, a priori, a mesma probabilidade de ser elixidos.

Hai diferentes tipos de mostraxes aleatorias:

Mostraxe aleatoria simple

É o tipo de mostraxe máis simple e no que se basan todos os demais. Para obter unha mostra, enuméranse os elementos da poboación e selecciónanse ao chou n elementos.

A mostra aleatoria simple ten dúas propiedades envexables:

  • Inesgada: cada unidade ten a mesma probabilidade de saír elixida.
  • Independencia: a selección dunha unidade non inflúe na selección das outras.

Exemplo: desafortunadamente, no mundo real, as mostras independentes e totalmente inesgadas son difíciles de atopar. Por exemplo, unha enquisa electoral telefónica é nesgada, xa que ignora aos votantes sen teléfono e pode enquisar máis dunha vez aos votantes con máis dun número de teléfono.

Mostraxe aleatoria sistemática

Enuméranse os individuos e, a partir dun deles elixido ao chou, tómanse os seguintes mediante "saltos" numéricos iguais. Por exemplo, se o primeiro é o 4º e o salto é 10, elixiranse o 4º, 14º, 24º...

Exemplo: supoñamos que nun centro escolar hai 1000 alumnos e queremos elixir unha mostra aleatoria simple e unha mostra aleatoria sistemática de 100 alumnos, entón facémolo do seguinte xeito:

  • Sortéanse 100 números de entre os 1000. A mostra aleatoria simple estará formada polos 100 alumnos aos que correspondan eses números
  • Para a mostraxe aleatoria sistemática procédese do seguinte xeito:
    • Calcúlase o salto h=1000/100=10
    • Sortéase un número entre o 1 e o 10. Supoñamos que sae o 5
    • Os alumnos seleccionados para a mostra son os que corresponden aos números 5, 15, 25, 35,...

Mostraxe aleatoria estratificada

Se a poboación se pode dividir en grupos homoxéneos, estratos (por exemplo, por idades: menores de 18 anos, de 18 a 50; máis de 50), ás veces convén elixir a mostra fixando de antemán o número de individuos de cada estrato. Cando estes números son proporcionais aos tamaños dos estratos, dise que a mostraxe é estratificada con reparto proporcional.
En cada estrato, os ni individuos da mostra elíxense aleatoriamente.

Mostraxe por conglomerados

Na mostraxe por conglomerados, a poboación atópase agrupada en pequenos conglomerados. Selecciónase unha mostra aleatoria simple de conglomerados e estúdanse todos os individuos de cada un dos conglomerados seleccionados. Este tipo de mostraxe pode ser efectivo dende o punto de vista dos custos se o custo da viaxe entre as unidades da mostra aleatoria é alto.

Exemplo: unha enquisa nos fogares galegos, na que se divide a Galicia en seccións censais (conglomerados). Selecciónase aleatoriamente unha mostra das seccións censais e estúdanse todos os fogares de cada unha das seccións censais incluídas na mostra.

Variables estatísticas: cuantitativas e cualitativas

As distintas características que se estudan en cada elemento dunha mostra son as variables. Algunhas das variables que atopamos habitualmente nas estatísticas oficias son o xénero, a idade, a nacionalidade, o nivel de estudos, a relación coa actividade económica, ...

Os datos son os valores que toma a variable en cada caso.

Exemplo:

  • Os valores que pode tomar a variable xénero son: home, muller
  • Os valores que pode tomar a variable relación coa actividade económica son: inactivo, ocupado e parado.

Non todas as observacións son iguais. A distinta natureza dos datos permite clasificar a grandes trazos as variables en dous tipos:

  • Variables cuantitativas: son aquelas que poden medirse, cuantificarse ou expresarse numericamente. Poden ser de dous tipos:


    • Continuas: poden tomar calquera valor dentro dun rango numérico determinado (por exemplo, os ingresos das familias galegas). Neste caso os valores da variable convén agrupalos en intervalos ou clases do tipo [ai, bi). Cada un dos intervalos queda representado polo seu punto medio, que recibe o nome de marca de clase (ci).

    • Discretas: non admiten todos os valores intermedios nun rango. Toman normalmente valores enteiros: número de fillos, número de empresas, número de partos, ...

  • Variables cualitativas: representan unha cualidade ou atributo que clasifica cada caso nunha de varias categorías. Algúns dos exemplos máis frecuentes son: o sexo, que clasifica cada caso en dous grupos (homes/mulleres); os sectores de actividade económica, que clasifica cada caso en cinco grupos (Agricultura, Pesca, Industria, Construción e Servizos); ...

  • Poden distinguirse dous tipos, segundo o tipo de escala empregada:

    • Nominais: os datos axústanse a categorías que non manteñen unha relación de orde entre eles. Por exemplo, o sexo, a profesión, o tipo de fogar, a nacionalidade ...

    • Ordinais: nas escalas empregadas existe unha certa orde ou xerarquía. Por exemplo, o grao de dependencia (moderada, severa, gran dependencia), o grao de dificultade para chegar a fin de mes (con facilidade ou moita facilidade, con dificultade, con moita dificultade), ...

Táboa estatística ou de frecuencias

Para facer un estudo estatístico dunha característica dunha población, elíxese a dita característica e despois faise un reconto. A continuación, hai que organizar os datos e expresalos de forma sinxela para que a súa interpretación sea fácil e sinxela.

A táboa estatística ou de frecuencias está formada en principio por dúas columnas:

  • Na primeira figuran os posibles valores que pode tomar a variable.

  • Na segunda columna figuran as frecuencias absolutas de cada valor, é dicir, o número de veces que o dito valor no conxunto total de observacións. A suma de todas as frecuencias absolutas ten que ser o tamaño mostral (n). A frecuencia absoluta de cada valor x i denótase por ni.

Esta táboa inicial pódese completar coas frecuencias que se definen a continuación:

  • A frecuencia relativa, que é o cociente entre a frecuencia absoluta e o número total de observacións (n) e represéntase por fi para o valor xi. Esta frecuencia tamén recibe o nome de tanto por un e pode expresarse en porcentaxes, multiplicando a frecuencia relativa por 1000 e representa neste caso a porcentaxe de individuos que presentan esta característica.

  • A frecuencia absoluta acumulada, que é a suma da frecuencia absoluta dun valor da variable con todas as frecuencias dos valores anteriores a este. Denótase por Ni para o valor x i.

  • A frecuencia relativa acumulada, que é a suma da frecuencia relativa dun valor da variable con todas as frecuencias dos valores anteriores a este. Tamén se pode definir como o cociente entre a frecuencia absoluta acumulada e o número total de datos. Represéntase por Fi para o valor xi

¡Coidado!. As frecuencias acumuladas só ten sentido calculalas se a variable non é cualitativa nominal.

Exemplo 1: número de fogares en Galicia no ano 2015 segundo a tipoloxía do fogar

Variable estatística cualitativa nominal

  Frecuencia absoluta Frecuencia relativa
Unipersoal 229.780 0,217
Sen núcleo 21.741 0,020
Parella con fillos 352.118 0,332
Parella sen fillos 245.908 0,232
Monoparental 103.711 0,098
Un núcleo e outros 70.337 0,066
Varios núcleos 37.196 0,035
1.060.791

Elabora a táboa de frecuencias para a túa provincia e o último ano dispoñible picando na seguinte ligazón Número de fogares por tipo

Exemplo 2: número de declarantes do IRPF en Galicia no ano 2014 segundo o tramo da base impoñible

Variable estatística continua

  Frecuencia absoluta (ni)Frecuencia absoluta acumulada(Ni)Frecuencia relativa (fi)Frecuencia relativa acumulada (Fi)
De 0 a 6.000 euros 325.774 325.774 0,256 0,256
De 6.000 a 12.000 euros 266.041 591.815 0,209 0,465
De 12.000 a 21.000 euros 331.806 923.621 0,261 0,726
Máis de 21.000 euros 348.658 1.272.279 0,274 1
1.272.279 1

Elabora a táboa de frecuencias para a túa provincia e o último ano dispoñible picando no seguinte enlace Número de declarantes do IRPF segundo o tramo da base impoñible

Medidas de posición

As medidas de posición tamén se denominan promedios, medidas de tendencia central ou medidas de centralización. As medidas estatísticas pretenden "resumir" a información da "mostra" para poder ter un mellor coñecemento da poboación.
As medidas de posición corresponden a valores que en xeral están situados na parte central do conxunto de datos e tratan de responder á seguinte pregunta: ¿Arredor de que valor se agrupan os datos?.

As medidas de tendencia central máis importantes son:

  • A media aritmética
  • A moda
  • A mediana

Media aritmética

A media aritmética calcúlase como a suma de todos os valores dividida polo número de datos ou tamaño mostral. Só se pode calcular no caso de variables cuantitativas.

Cando os datos están agrupados en clases ou intervalos para o cálculo da media emprégase a marca de clase (ci) no lugar do valor (xi).

Se ben se considera habitualmente a media aritmética como o dato máis representativo dunha mostra, o certo é que non sempre o é. Ocorre que os datos especialmente atípicos inflúen especialmente no seu cálculo. Así, existen variantes como a media truncada, a media harmónica, a media xeométrica, etc, que ás veces son máis apropiadas.

Exemplo 1: superficie media das provincias galegas:

Superficie das provincias galegas
Provincia Km2
A Coruña 7.950,4
Lugo 9.856,1
Ourense 7.273,4
Pontevedra 4.494,5

Na táboa anterior aparece a superficie das catro provincias galegas. Temos catro valores distintos e cada un deles aparece unha soa vez, polo que podemos calcular a media aritmética tal e como aparece a continuación:


Polo tanto, as provincias galegas teñen unha superficie media de 7.393,6 Km2.

Exemplo 2: idade media da poboación galega

  2016
0-4 101.026
5-9 114.222
10-14 109.191
15-19 104.235
20-24 116.232
25-29 134.129
30-34 170.221
35-39 218.804
40-44 220.437
45-49 211.120
50-54 198.546
55-59 190.328
60-64 168.724
65-69 165.049
70-74 146.545
75-79 118.604
80-84 118.407
85 e máis 112.705

Na táboa anterior aparece a poboación de Galicia segundo grupos de idade a 1 de xaneiro de 2016. ¿Poderiamos aproximar a partir da información anterior a idade media da poboación galega nese momento?

Cómpre facer dúas observacións:

  • Os intervalos anteriores aparecen da forma a-b. Inclúen toda a poboación que ten a 1 de xaneiro as idades comprendidas entre a y b, incluídos os dous extremos. Por exemplo, no intervalo 75-79 estarían incluídas todas as persoas que a 1 de xaneiro de 2016 tiñan 75, 76, 77, 78 e 79 anos; é dicir, todas aquelas persoas con idades comprendidas entre os 75 (incluídos) e os 80, [75,80). Antes de calcular as marcas de clase cómpre expresar os intervalos desta forma.

  • O último intervalo non ten límite superior. Suporemos para o cálculo da idade media que o 1 de xaneiro do 2016 ningunha persoa galega tiña 110 anos ou máis, o que parece bastante razoable.

Para calcular a idade media da poboación galega precísase calcular a marca de clase de cada un dos intervalos, para o que é necesario ter en conta o dito no parágrafo anterior.

  Frecuencias absolutas Marca de clase Frecuencias*Marca de clase
[0-5) 101.026 2,5 101.026*2,5=252.565
[5-10) 114.222 7,5 856.665
[10-15) 109.191 12,5 1.364.887,5
[15-20) 104.235 17,5 1.824.112,5
[20-25) 116.232 22,5 2.615.220
[25-30) 134.129 27,5 3.688.547,5
[30-35) 170.221 32,5 5.532.182,5
[35-40) 218.804 37,5 8.205.150
[40-45) 220.437 42,5 10.028.200
[45-50) 211.120 47,5 10.028.200
[50-55) 198.546 52,5 10.423.665
[55-60) 190.328 57,5 10.943.860
[60-65) 168.724 62,5 10.545.250
[65-70) 165.049 67,5 11.140.807,5
[70-75) 146.545 72,5 10.624.512,5
[75-80) 118.604 77,5 9.191.810
[80-85) 118.407 82,5 9.768.577,5
[85,110) 112.705 97,5 10.988.738
2.720.541 127.363.322,5

A media aritmética calcúlase como o cociente entre a suma de todos os valores da variable e o número total de observacións. Neste caso como os datos están agrupados en intervalos considéranse as marcas de clase e como os distintos valores (marca de clase) teñen frecuencia superior a 1, para obter a suma de todos os valores multiplícase cada marca de clase pola frecuencia correspondente.

O número total de observacións calcúlase como a suma de todas as frecuencias.

A idade media da poboación galega a 1 de xaneiro de 2016 calcúlase do seguinte xeito:


No seguinte formulario podes consultar a poboación de Galicia, das provincias e dos concellos para o último ano dispoñible.

¿Cal é entón a idade media do teu concello?. ¡Só tes que repetir os cálculos que se fixeron para Galicia!.

Concello:

Moda

A moda (Mo) é o valor da variable que presenta maior frecuencia. No caso de haber varios valores da variable que teñan a máxima frecuencia, existen varias modas e as variables denomínanse multimodais. As variables estatísticas cunha moda chámanse unimodais, con dúas bimodais, con tres trimodais, .....

A moda pódese calcular tanto para variables cuantitativas como cualitativas.

No caso das variables cualitativas é a categoría que presenta unha maior frecuencia e pode non ser un dato numérico.

No caso das variables cuantitativas continuas, nas que os valores aparecen agrupados en intervalos, denomínase intervalo ou clase modal a aquel con maior frecuencia.

Cando os datos están agrupados en intervalos, tómase como valor aproximado da moda a marca de clase do intervalo ou clase modal.

Exemplos:

  • No exemplo 1 da táboa de frecuencias, no que se considerou a variable cualitativa nominal tipoloxía do fogar, o tipo de fogar máis frecuente en Galicia no ano 2009 e polo tanto, a moda, é parella con fillos.

  • No exemplo 2 da táboa de frecuencias, no que se considerou a variable cuantitativa continua base impoñible do IRPF, o tramo de base impoñible máis frecuente (con maior número de declarantes), é dicir, o intervalo ou clase modal é de 12.000 a 21.000 euros.

Mediana

A mediana (Me) defínese como aquel valor da variable tal que, logo de ordear todos os valores observados da variable, ocupa o lugar central, ou equivalentemente, o número de observacións menores que el é igual ao número de observacións maiores que el.

No caso das variables cuantitativas discretas poden presentarse dous casos:

  • Tamaño mostral impar: neste caso só hai un dato que ocupa o lugar central e que sería polo tanto a mediana.

    Exemplo: se os datos son 2,3,3,4,6,7,7,7,8 a mediana é Me=6.

  • Tamaño mostral par: neste caso hai dous datos que ocupan o lugar central e que a mediana sería a media aritmética destes dous valores intermedios.

    Exemplo: se os datos son 2,3,3,4,5,6,7,7,7,8 a mediana é Me=5,5 (media aritmética de 5 e 6); se os datos son 2,3,3,4,6,6,7,7,7,8 a mediana é Me=6.

No caso dunha variable continua ou de datos agrupado en intervalos:

  1. Elíxese o intervalo ou clase mediana [ai,bi), que é o primeiro intervalo cunha frecuencia absoluta acumulada superior á metade do número de datos.

  2. Elíxese como mediana a marca de clase do intervalo mediano ou calcúlase a mediana mediante a seguinte fórmula, que ten en conta se a mediana está máis preto do extremo superior ou inferior do intervalo mediano:

Exemplo: no exemplo 2 da táboa de frecuencias, n/2=636.139,5, polo que o intervalo ou clase mediana é de 12.000 a 21.000 euros.Podemos, ou ben considerar como mediana a marca de clase do intervalo 16.500, ou ben calcular a mediana aplicando a fórmula anterior:


Medidas de dispersión

As medidas de dispersión miden, como norma xeral, o grao de separación entre os datos; é dicir, en que medida os datos están agrupados ou non arredor de valores centrais.

Suposto que os datos se agrupan arredor dun número, as medidas de dispersión tratan de respostar a: ¿como o fan?; ¿están moi concentrados? ¿están moi dispersos?.

As medidas de dispersión máis importantes son:

  • O rango
  • A desviación media
  • A varianza
  • A desviación típica
  • O coeficiente de variación

Rango

O rango é a diferenza entre o maior e o menor dos datos. É dicir, se os n datos están ordenados de menor a maior, calcúlase rango = xn - x1, onde xn é o maior valor e xn é o menor.

Cando os datos están agrupados en intervalos, calcúlase como a diferenza entre o extremo superior do último intervalo e o extremo inferior do primeiro intervalo, é dicir, rango = bn - a1, onde o primeiro intervalo sería [a1,b1) e o último intervalo [an,bn)

Exemplo:

Na seguinte táboa de datos, aparecen o número de nacementos na Comunidade Autónoma de Galicia en cada un dos meses do ano 2015.

  Galicia
   2015/Xaneiro 1.647
   2015/Febreiro 1.444
   2015/Marzo 1.617
   2015/Abril 1.604
   2015/Maio 1.632
   2015/Xuño 1.569
   2015/Xullo 1.688
   2015/Agosto 1.604
   2015/Setembro 1.669
   2015/Outubro 1.705
   2015/Novembro 1.581
   2015/Decembro 1.667

Para poder calcular o rango, en primeiro lugar hai que ordear a información polo seu valor numérico, de menor a maior valor. Na seguinte táboa xa podemos ver os datos ordeados:

  Galicia
   2015/Febreiro 1.444
   2015/Xuño 1.569
   2015/Novembro 1.581
   2015/Agosto 1.604
   2015/Abril 1.604
   2015/Marzo 1.617
   2015/Maio 1.632
   2015/Xaneiro 1.647
   2015/Decembro 1.667
   2015/Setembro 1.669
   2015/Xullo 1.688
   2015/Outubro 1.705

A partir desta táboa xa se poden realizar os cálculos:

rango=xn - x1= 1.705-1.444= 261

No seguinte enlace podes obter os datos da túa provincia para os doce meses do último ano dispoñible e repetir o cálculo do rango:Ver nacementos por meses para as catro provincias

Desviación media

A desviación media é a media aritmética das desviacións. Considérase a desviación dun dato xi como a distancia do dato á media aritmética, é dicir:

Polo tanto, a desviación media exprésase do seguinte xeito:

Exemplo: no exemplo 1 da media aritmética a desviación media calcúlase do seguinte xeito:

Varianza

A varianza é unha das medidas de dispersión máis empregadas. É a media dos cuadrados das diferenzas entre cada valor da variable e a media aritmética da distribución. Denótase por s2 e exprésase do seguinte xeito:


Para o seu cálculo, pode ser máis doado empregar a fórmula seguinte, especialmente cando os valores da media non saen exactos. O resultado é exactamente o mesmo:

A varianza obtense como suma das diferenzas de cadrados e polo tanto ten como unidades de medida o cuadrado das unidades de medida nas que se mide a variable estudada. Por exemplo, se as observacións están expresadas en metros, a varianza expresarase en metros2.

Exemplo: no exemplo 1 da media aritmética a varianza pódese calcular de calquera das dúas formas seguintes:


Neste exemplo cómpre salientar que as unidades de medida da variable (superficie) son km2, polo que as unidades da varianza son km4.

Desviación típica

A desviación típica (s) é a raíz cuadrada da varianza. Expresa a dispersión da distribución e exprésase nas mesmas unidades de medida da variable. A desviación típica é a medida de dispersión máis empregada.

Exemplo: no exemplo 1 da media aritmética a desviación típica calcúlase como:

Coeficiente de variación

O coeficiente de variación é unha medida de dispersión relativa dos datos e calcúlase dividindo a desviación típica mostral pola media e multiplicando o cociente por 100.

A súa utilidade radica en que ao non ter en conta a medida na que están tomados os datos, permite comparar a dispersión ou variabilidade de dous ou máis grupos con distintas unidades de medida ou con iguais unidades de medida pero distinta magnitude.

Exemplo:

A partir dos datos da poboación a 1 de xaneiro de 2016 nos concellos galegos, calculouse para cada provincia a media aritmética, a desviación típica, a varianza e o coeficiente de variación da variable poboación. Na seguinte táboa amósanse os resultados obtidos:

  Media aritméticaVarianzaDesviación típicaCoeficiente de variación
A Coruña 12.073,11 769.793.860,61 27.745,16 229,81
Lugo 5.022,79 145.241.233,84 12.051,61 239,94
Ourense 3.422,32 122.854.015,91 11.083,95 323,87
Pontevedra 15.231,39 1.410.154.000,17 37.552,02 246,54

A partir da táboa anterior, se observamos os valores da varianza ou a desviación típica, vemos que as provincias que acadan valores máis altos nestas dúas medidas son Pontevedra e A Coruña mentres que as que presentan valores máis baixos son Ourense e Lugo.

¿Podemos comparar neste caso a dispersión das catro provincias galegas coa desviación típica ou a varianza?

Aínda que neste caso a escala de medida é a mesma nas catro provincias, existe unha grande diferenza entre as medias aritméticas das catro provincias:

  • Nun extremo A Coruña (12.073,11) e Pontevedra (15.231,39)
  • Noutro extremo Lugo (5.022,79) e Ourense (3.422,32)

A enorme diferenza entre a poboación das provincias galegas fai necesario o emprego do coeficiente de variación para poder comparar a dispersión.

Tal e como se pode observar na táboa a provincia de Ourense é a que presenta un valor máis alto de este coeficiente, seguida de Pontevedra, A Coruña e Lugo. Nestas dúas últimas provincias o coeficiente toma valores moi próximos.

¿Como o interpretamos?

Pois, á vista dos resultados obtidos, a provincia de Ourense é a provincia na que maior separación existe entre os valores da poboación dos seus concellos, con respecto ao valor medio, mentres que as provincias de Lugo e A Coruña sitúanse no extremo oposto.

Nos seguintes enlaces podes atopar os datos da poboación dos concellos das catro provincias galegas para o último ano dispoñible: A Coruña, Lugo, Ourense, Pontevedra