Estatística·📊 Dados Bivariados
Dados Bivariados

📊 Dados Bivariados

📄
Quando queremos estudar a relação entre duas variáveis, usamos amostras bivariadas e representamo-las numa nuvem de pontos. O coeficiente de correlação linear mede a intensidade dessa relação, e a reta de regressão permite-nos fazer previsões.

Amostras Bivariadas e Nuvem de Pontos

Quando queremos estudar a relação entre duas variáveis xx e yy, usamos uma amostra bivariada: um conjunto de pares (x1,y1),(x2,y2),,(xn,yn)(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n).

Esta amostra pode ser representada graficamente por uma nuvem de pontos (ou diagrama de dispersão), marcando cada par (xi,yi)(x_i, y_i) como um ponto no plano cartesiano.

Variável Explanatória e Variável Resposta

Em muitas situações reais, faz sentido distinguir as duas variáveis:

  • Variável explanatória - a variável independente, a que influencia a outra
  • Variável resposta - a variável dependente, a que é influenciada

Esta escolha baseia-se no conhecimento que temos da situação, não em regras estatísticas.

Exemplo - Salário médio mensal

Na tabela abaixo, xx representa o ano e yy o salário médio mensal (em euros) de um trabalhador por conta de outrem, entre 1985 e 2015.

Ano (xx)1985198919921995199920032005200720112015
Salário (yy)170,5290,9469,7584700,2849,6907,2963,31083,81096,7

Aqui, o "ano" (xx) é a variável explanatória e o "salário" (yy) é a variável resposta.

Coeficiente de Correlação Linear

O coeficiente de correlação linear mede a intensidade da relação linear entre duas variáveis. É dado por:

r=(x1xˉ)(y1yˉ)+(x2xˉ)(y2yˉ)++(xnxˉ)(ynyˉ)(x1xˉ)2++(xnxˉ)2(y1yˉ)2++(ynyˉ)2r = \frac{(x_1 - \bar{x})(y_1 - \bar{y}) + (x_2 - \bar{x})(y_2 - \bar{y}) + \ldots + (x_n - \bar{x})(y_n - \bar{y})}{\sqrt{(x_1 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2} \cdot \sqrt{(y_1 - \bar{y})^2 + \ldots + (y_n - \bar{y})^2}}

O valor de rr pertence sempre ao intervalo [1,1][-1, 1].

Como interpretar o valor de rr

  • rr próximo de 1 - existe uma associação linear positiva (quando xx aumenta, yy também tende a aumentar)
  • rr próximo de -1 - existe uma associação linear negativa (quando xx aumenta, yy tende a diminuir)
  • rr próximo de 0 - não existe associação linear entre as variáveis

Reta de Regressão

A reta de regressão (ou reta dos mínimos quadrados) é a reta que melhor se ajusta à nuvem de pontos. Quando o diagrama de dispersão mostra uma forte associação linear, esta reta permite-nos fazer previsões.

Exemplo - Estimativa do salário em 2017

Usando os dados do salário médio mensal, a calculadora gráfica dá-nos a reta de regressão:

y=32,782x64856,285, com r=0,988y = 32{,}782x - 64\,856{,}285 \text{, com } r = 0{,}988

Como r=0,988r = 0{,}988 está muito próximo de 1, existe uma forte associação linear positiva.

Para estimar o salário em 2017, substituímos xx por 2017:

y=32,782×201764856,2851265,61y = 32{,}782 \times 2017 - 64\,856{,}285 \approx 1265{,}61

Estimamos que o salário médio mensal em 2017 seja de 1265,61 euros.