Gráfico QQ – Como verificar a distribuição de nossos dados

Existe uma ferramenta bastante eficiente para verificar com precisão a distribuição de dados, é o Gráfico QQ. Este tipo de diagrama permite agilizar vários processos e devido a sua importância, não podia ficar de fora dos nossos estudos, como Cientista de Dados, é fundamental conhecê-lo e saber ao certo como funciona.

O que é o gráfico QQ?

O gráfico QQ ou gráfico quantil-quantil, é uma ferramenta gráfica para nos ajudar a avaliar se um conjunto de dados plausivelmente veio de alguma distribuição teórica, como Normal ou exponencial. 

Por exemplo, se executarmos uma análise estatística que assume que nossa variável dependente é normalmente distribuída, podemos usar um gráfico de QQ normal para verificar essa suposição. 

É apenas uma verificação visual, não uma prova hermética, por isso é um tanto subjetivo. Mas nos permite ver rapidamente se nossa suposição é plausível e, caso não seja, como a suposição é violada e quais pontos de dados contribuem para a violação.

Um gráfico QQ é um gráfico de dispersão criado plotando dois conjuntos de quantis um contra o outro. Se os dois conjuntos de quantis vierem da mesma distribuição, devemos ver os pontos formando uma linha aproximadamente reta. 

Aqui está um exemplo de gráfico de QQ normal quando ambos os conjuntos de quantis realmente vêm de distribuições normais.

Gráfico QQ-Plot - IMG01

 

Agora, o que são “quantis”? 

Esses são frequentemente chamados de “percentis”. Estes são pontos em seus dados abaixo dos quais uma certa proporção de seus dados cai. Por exemplo, imagine a distribuição normal padrão da curva em sino clássica com uma média de 0. O quantil 0,5, ou 50º percentil, é 0. Metade dos dados está abaixo de 0. 

Esse é o pico da saliência na curva. O quantil 0,95, ou 95º percentil, é cerca de 1,64. 95 por cento dos dados estão abaixo de 1,64. O seguinte código R gera os quantis para uma distribuição normal padrão de 0,01 a 0,99 em incrementos de 0,01:

qnorm (seq (0,01,0,99,0,01))

Também podemos gerar dados aleatoriamente de uma distribuição normal padrão e, em seguida, encontrar os quantis. Aqui, geramos uma amostra de tamanho 200 e encontramos os quantis de 0,01 a 0,99 usando a função quantile:

quantil (rnorm (200), probs = seq (0,01,0,99,0,01))

Portanto, vemos que os quantis são basicamente apenas seus dados classificados em ordem crescente, com vários pontos de dados rotulados como sendo o ponto abaixo do qual uma certa proporção dos dados cai. 

No entanto, é importante notar que existem muitas maneiras de calcular quantis. Na verdade, a função quantile em R oferece 9 algoritmos de quantis diferentes!

Os gráficos QQ pegam seus dados de amostra, classificam-nos em ordem crescente e, em seguida, os representam em relação aos quantis calculados de uma distribuição teórica. 

O número de quantis é selecionado para corresponder ao tamanho de seus dados de amostra. Embora os gráficos QQ normais sejam os mais usados ​​na prática devido a tantos métodos estatísticos que pressupõem normalidade, os gráficos QQ podem, na verdade, ser criados para qualquer distribuição.

Em R, existem duas funções para criar gráficos QQ: qqnorme qqplot.

qqnorm cria um gráfico de QQ normal. Você fornece a ele um vetor de dados e R plota os dados em ordem classificada versus quantis de uma distribuição normal padrão.

Como fazer um gráfico QQ

Pergunta de amostra: Os valores a seguir vêm de uma distribuição normal:

7,19, 6,31, 5,89, 4,5, 3,77, 4,25, 5,19, 5,79, 6,79.

Etapa 1: Ordene os itens do menor para o maior.

  • 3,77
  • 4,25
  • 4,50
  • 5,19
  • 5,89
  • 5,79
  • 6,31
  • 6,79
  • 7,19

Etapa 2: Desenhe uma curva de distribuição normal. Divida a curva n + 1 em segmentos. Temos 9 valores, então divida a curva em 10 áreas de tamanhos iguais. Para este exemplo, cada segmento é 10% da área (porque 100% / 10 = 10%).

curva grafico QQ - Img 1

Etapa 3: Encontre o valor z (ponto de corte) para cada segmento na Etapa 3. Esses segmentos são áreas, portanto, consulte uma tabela z (ou use o software) para obter um valor z para cada segmento.

Os valores z são:

  • 10% = -1,28
  • 20% = -0,84
  • 30% = -0,52
  • 40% = -0,25
  • 50% = 0
  • 60% = 0,25
  • 70% = 0,52
  • 80% = 0,84
  • 90% = 1,28
  • 100% = 3,0
curva grafico QQ - Img 2
Alguns dos valores z traçados no gráfico.

 

Etapa 4: Plote os valores do conjunto de dados (Etapa 1) em relação aos pontos de corte da distribuição normal (Etapa 3). Usei o Open Office para este gráfico:

Gráfico QQ- Valores- IMG01
A (quase) linha reta neste gráfico qq indica que os dados são aproximadamente normais.

 

Nota: Este exemplo usou a distribuição normal padrão, mas se você acha que seus dados podem ter vindo de uma distribuição normal diferente (ou seja, uma com média e desvio padrão diferentes), você pode usá-la.

Gráficos QQ e a Suposição de Normalidade

A suposição de normalidade é uma suposição importante para muitos testes estatísticos; você assume que está amostrando de uma população normalmente distribuída. 

O gráfico QQ normal é uma forma de avaliar a normalidade. No entanto, você não precisa usar a distribuição normal como uma comparação para seus dados; você pode usar qualquer distribuição contínua como comparação (por exemplo, uma distribuição de Weibull ou uma distribuição uniforme), desde que você possa calcular os quantis. 

Na verdade, um procedimento comum é testar várias distribuições diferentes com o gráfico QQ para ver se uma se ajusta bem aos seus dados.

Comparação de gráficos PP e gráficos QQ

Um gráfico PP compara a função de distribuição cumulativa de um conjunto de dados com uma função de distribuição cumulativa teórica que precisa ser especificada obrigatoriamente pelo uso da escala de parâmetro de F (·).

Já um gráfico QQ vai comparar os quantis reais de uma distribuição de dados com os quantis reais de uma distribuição teórica, está geralmente padronizada de uma família de distribuições já previamente especificada. 

Ficou meio nerd e confuso? Beleza, vou explicar…

Existem três diferenças importantes na forma como os gráficos QQ e os gráficos PP são construídos e  posteriormente interpretados:

1 – A construção de um gráfico QQ não requer que os parâmetros de localização ou escala de parâmetro de F (·) sejam especificados. Os quantis teóricos são calculados a partir de uma distribuição padrão dentro da família especificada. 

Um padrão de ponto linear indica que a família especificada descreve de forma razoável a distribuição de dados.  Neste caso, os parâmetros de escala e localização podem ser estimados visualmente como a interceptação e inclinação do padrão linear. 

Ao contrário, a construção de um gráfico PP requer os parâmetros de localização e escala de parâmetro de F (·) para avaliar o cdf nos valores de dados ordenados.

2 – A linearidade do padrão de pontos em um gráfico QQ não é afetada por mudanças na localização ou escala. Em um gráfico PP, as mudanças na localização ou escala não preservam necessariamente a linearidade.

3 – Em um gráfico QQ, a linha de referência que representa uma distribuição teórica particular depende dos parâmetros de localização e escala dessa distribuição, tendo interceptação e inclinação iguais aos parâmetros de localização e escala. 

Em um gráfico PP, a linha de referência para qualquer distribuição é sempre a linha diagonal y = x .

Conclusão

Você deve usar um gráfico QQ se seu objetivo for comparar a distribuição de dados com uma família de distribuições que variam apenas em localização e escala, particularmente se você deseja estimar os parâmetros de localização e escala do gráfico.

Em caso de dúvidas, não deixe de conferir os nossos demais conteúdos sobre estatísticas e futuramente abordaremos mais sobre o uso do Gráfico QQ e suas distribuições.

Até o próximo artigo!

Compartilhe

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp
Share on print
imprimir
Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on print

O que achou deste artigo?

Leia também