Você é técnico de um time de futebol e tem que escalar uma nova jogadora no seu time titular para o início da pré-temporada. Seu coordenador te dá duas opções de meio-campistas recém promovidas da base, Alicia e Alexia, ele também te fornece um histórico dos últimos jogos informando a participações em gols:
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 1.000 1.000 1.429 1.500 3.000
Mostre o Código
summary(Alexia)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 0.00 1.00 1.50 2.75 4.00
E assim você entra no seguinte dilema, qual atleta escolher, dado que ambas são bem semelhantes no modo de jogo, qual critério adotar?
Medidas
Um primeiro indicador que vem em mente seria a soma de participações em gols, porém, como uma das atletas tem um jogo a mais, ela leva vantagem, uma boa alternativa para isso seria aplicar a média.
Sendo assim, a média de participações em gols da Alicia e Alexia, são de 1.43 e 1.5 gols, respectivamente. Podemos perceber que a Alexia obteve um indicador maior, mas que difere pouco da Alicia. Inicialmente poderíamos optar por escalar a Alexia.
No entanto, quando olhamos a progressão de participação de gols, jogo a jogo, percebemos uma certa diferença na distribuição das duas, onde Alicia aparenta oscilar pouco ao decorrer das partidas, entregando no mínimo uma participação em gol por jogo. Já a Alexia se apresenta bem “8 ou 80” nessa amostra de jogos, atingindo uma partida com 4 contribuições diretas para gol, porém em 3 partidas ela passou em branco.
Cálculo e Interpretação
O cálculo do desvio padrão ajuda bastante para analisar a dispersão do desempenho de ambas, porém, uma medida que nos fornece outra ótica sobre as participações em gols é o coeficiente de variação (CV), também conhecido como dispersão relativa. Essa métrica poderosa nada mais é que o desvio padrão amostral dividido pela média amostral, e quando desejamos ter uma ideia em percentual podemos multiplicar esse indicador por 100.
Há várias interpretações que podemos fornecer para o CV, uma delas é de que quanto menor essa medida for, mais representativa a média é para a amostra. Por outro lado, podemos ver o CV como um indicador de regularidade, de modo que quanto maior ele se apresenta, mais irregular os dados da amostra são, e quanto menor, indica regularidade.
Benefícios
Além de ser uma medida que possui alta interpretabilidade, há um benefício de flexibilidade, que pode ser visto em dois sentidos:
Comparando a rentabilidade nos últimos 5 meses das ações de dois investidores:
Min. 1st Qu. Median Mean 3rd Qu. Max.
4500 5500 7800 8520 9800 15000
Mostre o Código
summary(PrimoPobre)
Min. 1st Qu. Median Mean 3rd Qu. Max.
70 100 190 208 230 450
A pergunta que pode surgir é, qual a carteira possui mais regularidade ao longo dos meses observados? A propriedade que observamos é que podemos comparar duas amostras com grande diferença de magnitude, uma vez que um dos investidores pode fazer maiores aportes. Como as dispersões relativas do Primo Rico e do Primo Pobre são de aproximadamente 49% e 72%, respectivamente, podemos afirmar que a carteira de investimento do Primo Rico é mais “confiável” ao longo do período analisado.
Entretanto, há um outro benefício muito legal do CV, a possibilidade de comparar maçã com banana. Imagine que um dos seus jogadores principais se lesiona no aquecimento antes de uma partida importante. Seu auxiliar técnico te informa duas possibilidades de formações alternativas, uma com um zagueiro a mais e outra com mais um atacante, na prática ambas as possibilidades não muda muito a mentalidade de como o time vai jogar. Porém, a regularidade dos atletas seria muito relevante para manter o equilíbrio coletivo e a confiança da comissão, de maneira que quem for escolhido vai desempenhar aquilo que tem feito em média nos últimos jogos que fez parte do time.
Dito isso, o seu analista fornece estatísticas dos últimos 4 jogos de três fundamentos principais das suas duas opções. Para o zagueiro, temos os desarmes (D), percentual de disputas de bola ganhas (PDG) e interceptações (I). Já para o atacante, temos participações em gols (PG), passes decisivos (PD) e taxa de dribles bem-sucedidos (TDS).
Mostre o Código
D =c(3,1,0,0)PDG =c(85,95,76,66)I =c(2,4,2,1)PG =c(0,3,0,1)PD =c(1,2,0,0)TDS =c(33,50,100,22)data.frame(D,PDG,I,PG,PD,TDS)
Antes de falarmos do resultado, enfatizamos que estamos comparando a regularidade de atletas de posições totalmente diferentes, evidenciando o poder do uso dessa métrica para esse tipo de interpretação. Uma ideia para comparar os dois jogadores será calcular o CV para cada uma das métricas, e por fim, realizar uma média do CV dos indicadores condizentes com cada um dos jogadores. Temos que a média do CV do zagueiro foi de 71%, e do atacante de 112%, logo o jogador mais regular dentre as métricas definidas foi o defensor, e assim o técnico pode tomar sua decisão.
Conclusão
Há outros modos de explorar o Coeficiente de Variação, e isso vai de encontro com a criatividade do entusiasta dos dados, dito isso, que o CV não seja tão esquecido, e que seja utilizado com mais regularidade.