Por: Paulo Campos
Outlier é descrito em estatística como um ponto que está muito distante das demais observações em uma série estatística, e que chamamos comumente de “ponto fora da curva”.
Outliers podem ocorrer em qualquer distribuição e são, frequentemente, indicativos de uma distribuição com muita variação entre os seus componentes ou algum erro de mensuração, podendo ser identificados através dos valores máximos ou mínimos – já que são observações de desvios extremos –, mas nem sempre, o máximo e o mínimo são outliers.
A tratativa mais comum para outliers é a exclusão manual destes componentes da amostra ou a utilização de estatística robusta para eliminar as falhas que podem ser causadas nesta análise da amostra ou da população. Independentemente disso, seus porquês precisam ser analisados mais a fundo.
Por exemplo: Se considerarmos 10 pessoas em uma academia e, destas, 9 pesam entre 49 e 60 kg enquanto uma pesa 150 kg. Se utilizarmos a média nesta população observaremos um valor de 64kg, enquanto que a mediana resultaria em 56 kg. A mediana é uma função de estatística robusta, por que consegue desconsiderar os pontos fora da curva que enviesam a amostra (150 kg), enquanto que a média não.
Como identificar outliers
Os outliers podem ser sinalizados quando encontram-se fora de um intervalo da média para mais ou para menos. Este intervalo para mais ou para menos é definido pelo desvio padrão.
No gráfico acima, possuímos as vendas históricas mensais de um determinado produto, determinada empresa. Traçamos, também, uma linha paralela demonstrando a média fixa dos 12 meses e podemos identificar os períodos em que superou-se ou ficou-se abaixo desta média. Superficialmente, podemos assumir que os meses de Maio e Outubro são outliers? Primeiramente, precisamos definir qual a faixa média de variação destas vendas, ou seja, o nosso desvio padrão da amostra, neste caso, o resultado é 343.
Significa que nossa série histórica varia em média 343 unidades para mais ou para menos.
No Excel, para calcularmos o desvio padrão utilizamos a fórmula =DESVPADA(B2:B13), sendo “B2:B13″ o intervalo que contém os dados da série de vendas.
De uma distribuição normal podemos afirmar que:
- 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.
- 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.
- 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.
Como desejamos uma análise com 95% de confiabilidade, significa que 95% das vendas descritas na série histórica deverão estar entre a média mais duas vezes o desvio padrão e a média menos duas vezes o desvio padrão, ou, x + 2.δ e x – 2.δ, conforme descrito acima.
Desta forma, plotando em um gráfico, criamos um limite superior (média mais duas vezes o desvio padrão – barra verde) e um limite inferior (média menos duas vezes o desvio padrão – barra roxa), e consideraremos como “pontos fora da curva” ou outliers, as observações que fugirem aos limites estipulados, como o resultado de Maio, que fica acima do limite superior de variação.
A partir daí, cabe uma análise mais profunda, mais focada e ágil, após identificação deste de ponto de interesse: O que aconteceu em Maio?
Análises de Distribuição Normal
Outra maneira de identificar outliers dentro da sua população é pela utilização de um histograma, agrupando a frequência da amostra ou população por uma determinada faixa. Através da distribuição normal podemos segregar as observações que estão dentro do esperado e as que fogem do padrão.
Conforme falamos previamente, uma distribuição normal prevê que a probabilidade da concentração aumenta quanto mais próxima da média, e diminui quanto mais afastada (quanto mais desvios padrão).
Por exemplo: Vamos assumir uma equipe de 222 vendedores, sendo avaliados quanto ao percentual de atingimento das suas respectivas metas, foram agrupados conforme a faixa de atingimento da meta, de 10% em 10%. Em quantidade e percentualmente, eles são classificados dentro da faixa de cobertura correspondente e acrescenta-se uma linha para representar a distribuição normal, da seguinte maneira:
Como “68% dos valores encontram-se a uma distância da média inferior a um desvio padrão” temos 34,1% para o lado esquerdo da média e 34,1% para o lado direito.
Como “95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão” menos os 68% (já plotados) temos 27% para o próximo segmento da cauda, ou 13,6% para cada metade e assim sucessivamente.
Observe que o agrupamento das pessoas toma uma forma aparente de curva “normal”, ou seja, a maior quantidade de pessoas está próximo à média (que é 97%).
A distribuição normal é também conhecida como distribuição de Gauss e demonstra o Teorema do Limite Central que diz que “toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande”
No entanto, você poderá observar que existem alguns elementos desta equipe que estão claramente fora do intervalo esperado, despontando para fora do final da cauda da curva (abaixo da faixa de 60% e acima da faixa de 140%). Aqui demonstramos, em vermelho, os outliers da equipe:
Temos 4 vendedores que estão realizando muito abaixo do seu objetivo e também fora do desvio padrão esperado. Por outro lado, 8 colaboradores estão superando suas metas muito acima do esperado.
Otimizar a análise e garantir confiabilidade
Por fim, a análise de outliers é uma ferramenta que permite identificar pontos de atenção para efetuar-se uma investigação mais profunda, onde realmente pode ver-se alguma “fumaça”. Aqueles que se destacam na multidão podem ser utilizados como modelo para reproduzir o caso novamente ou para identificar problemas substanciais que devem ser eliminados para evitar a ocorrência com os demais componentes.
Vamos gerar em seguida, conclusões, insights, controles de qualidade.
É também obrigatória para outras atividades tais como previsão de vendas e distribuição de metas, que dependem de uma avaliação do histórico para determinação de um número futuro, que deve ser estabelecido a partir de uma informação sem desvios que podem comprometer a confiabilidade do estudo.
CADASTRE-SE no Blog Televendas & Cobrança e receba semanalmente por e-mail nosso Newsletter com os principais artigos, vagas, notícias do mercado, além de concorrer a prêmios mensais.
Eis um assunto relevante a ser tratado, e como isso se aplica no segmento de Call Center.
A Estatistica Descritiva é fundamental para nos que trabalhamos com grande massa de dados.
Gostei
Achei o assunto muito interessante e preciso muito aprende-lo. Porém, faltou muita informação sobre os cálculos feitos pois não cheguei nem perto dos valores, como desenvolve-los, como aplicá-los, para que serve, qual insight conseguir tirar e diversas outras dúvidas que tive ao ler esse material.
Este é um conceito trabalhado amplamente no modelo de Gestão COPC. Trabalhar com um foco diferenciado com os outliers e entender como os de melhor resultado trabalham para multiplicar as melhores práticas.
Os resultados chegam em uma velocidade impressionante!!!
Recomendo!
Excelente post, gostei bastante, acho que devemos trabalhar com os conceitos estatísticos diariamente, pois dará credibilidade as nossas descobertas
Grimaldo Oliveira