Estatística: O que é Média, mediana e moda? E olha que é algo muito comum na área. Primeiramente, são as três principais medidas de tendência central nas estatísticas. Onde elas desempenham um papel crucial ao descrever a posição central de conjuntos de dados e resumir informações. Está presente e diversas situações do nosso cotidiano e em diversos contextos. Dessa maneira, essa diversidade de fontes destaca a importância de extrair informações significativas de conjuntos de dados, o que nos leva ao uso das medidas de tendência central. Estas não apenas simplificam a compreensão dos dados, mas também fornecem insights valiosos.

Tá!! Mas o que é?

Uma medida de tendência central onde representa um valor único que busca descrever a posição central de um conjunto de dados, sendo também chamada de localização central. Além disso, essas medidas são frequentemente classificadas como estatísticas resumidas, proporcionando uma visão compacta do conjunto de dados. Embora a média, frequentemente denominada média, seja uma medida de tendência central amplamente conhecida, há outras, como a mediana e a moda, que também desempenham papéis significativos.

Embora a média, mediana e moda sejam todas medidas válidas de tendência central, a escolha entre elas depende das condições específicas. Em determinados contextos, certas medidas de tendência central podem ser mais apropriadas do que outras. Nas próximas seções, exploraremos detalhadamente a média, moda e mediana, compreendendo como calculá-las e identificando as circunstâncias em que cada uma se mostra mais adequada para utilização.

Média Aritmética e estatística

A média (ou média) é a medida de tendência central mais popular e conhecida. Ele pode ser usado com dados discretos e contínuos, embora seu uso seja mais frequentemente com dados contínuos. A média é igual à soma de todos os valores no conjunto de dados dividida pelo número de valores no conjunto de dados. Então, se tivermos x1, x2 xn como valores em um conjunto de dados, a média amostral, será:

estatística

Essa fórmula é geralmente expressa com o somatório (letra grega maiúscula, Σ, “sigma”, que significa “soma de…”):

estatísticaestatística

Antes de mais nada a fórmula acima se refere à média da amostra. Então, por que a chamamos de média da amostra? Isso acontece porque, em estatística, amostras e populações têm significados muito diferentes, e essas diferenças são muito importantes, mesmo que, no caso da média, as calculemos da mesma maneira. Para indicar que estamos calculando a média da população e não a média da amostra, usamos a letra grega minúscula “mu”, representada como μ.

estatísticaestatística

Uma propriedade importante da média é que ela incorpora cada valor em seu conjunto de dados como parte do cálculo. Além disso, a média é a única medida de tendência central em que a soma dos desvios de cada valor em relação à média é sempre zero. Essa característica destaca a singularidade e a abrangência da média como uma métrica central na análise estatística.

Quando não usar a média?

A média possui uma desvantagem principal: é especialmente suscetível à influência de valores atípicos (outlier). Esses valores são incomuns em comparação com o restante do conjunto de dados, sendo especialmente pequenos ou grandes em valor numérico. Por exemplo, considere os salários dos funcionários de uma fábrica abaixo:

Funcionário12345678910
Salário (mil)15189514159012171516

O salário médio para esses dez funcionários é de 30,7 mil. No entanto, ao avaliar os dados brutos, nota-se que esse valor médio pode não ser a melhor maneira de refletir com precisão o salário típico de um trabalhador. Uma vez que a maioria dos trabalhadores tem salários na faixa de 12 mil a 18 mil. A média está sendo distorcida pelos dois salários elevados (90 e 95 mil). Portanto, nesta situação, para ter uma tendência central mais adequada a mediana seria uma escolha mais apropriada de tendência central.

Outra ocasião em que geralmente preferimos a mediana à média (ou moda) é quando nossos dados estão distorcidos (ou seja, a distribuição de frequência para nossos dados está distorcida). Se considerarmos a distribuição normal – como é mais frequentemente avaliada em estatísticas – quando os dados são perfeitamente normais, a média, mediana e moda são idênticas.

Além disso, todas representam o valor mais típico no conjunto de dados. No entanto, à medida que os dados se tornam distorcidos, a média perde sua capacidade de fornecer a melhor localização central para os dados, porque os dados distorcidos a afastam do valor típico. No entanto, a mediana mantém melhor essa posição e não é tão fortemente influenciada pelos valores distorcidos.

Mediana e estatística

A mediana é a o ponto central para um conjunto de dados que foi organizado em ordem de magnitude. A mediana é menos afetada por valores atípicos e por dados assimétricos. Para calcular a mediana, suponha que temos os seguintes dados:

[42, 18, 36, 29, 50, 25, 30, 22, 38, 45, 48]

Primeiramente, precisamos rearranjar esses dados em ordem de magnitude (do menor para o maior por exemplo):

[18, 22, 25, 29, 30, 36, 38, 42, 45, 48, 50]

A nosso ponto central o meio – neste caso, 36 (destacado em negrito). É ponto do meio porque existem 5 pontos antes dela e 5 após. Isso funciona bem quando você tem um número ímpar de dados, mas o que acontece quando você tem um número par? E se você tivesse apenas 10 pontos? Bem, você simplesmente tem que pegar as dois pontos do meio e calcular a média do resultado. Então, se olharmos para o exemplo abaixo:

[42, 18, 36, 29, 50, 25, 30, 22, 38, 45]

Nós novamente rearranjamos esses dados em ordem de magnitude (do menor para o maior):

[18, 22, 25, 29, 30, 36, 38, 42, 45, 50]

Agora, temos que pegar a 5° e 6º pontos em nosso conjunto de dados e calcular a média delas para obter uma mediana de 33.

Moda e estatística

A moda é o “dado” mais frequente em nosso conjunto. Em um histograma, ela representa a barra mais alta. Portanto, às vezes você pode considerar a moda como sendo a opção mais popular.

Vamos considerar o seguinte conjunto de dados:

[12, 18, 25, 18, 30, 25, 18, 22, 30, 18, 25, 12, 18, 25, 18, 30, 25, 18, 22, 30,18 ,25]

Para calcular a moda, identificamos o valor que aparece com mais frequência no conjunto. Para isso basta organizar os dados em ordem crescente.

[12, 12, 18, 18, 18, 18, 18, 18, 18, 18, 22, 22, 25, 25, 25, 25, 30, 30, 30,30 ,30, 30]

No caso acima, o número 18 ocorre com maior frequência, aparecendo quatro vezes, enquanto os outros números aparecem menos vezes. Portanto, a moda para este conjunto de dados é 18.

Lembrando que a moda pode não ser única e um conjunto de dados pode ter mais de uma moda se dois ou mais valores tiverem a mesma frequência máxima. No exemplo dado, 18 é a moda porque é o valor que mais se repete.

Utiliza-se  a moda para dados categóricos, onde desejamos saber qual é a categoria mais comum.

No entanto, um dos problemas com a moda é que ela não é única, o que nos deixa com dificuldades quando temos dois ou mais valores que compartilham a frequência mais alta, como abaixo:

Agora estamos presos quanto a qual moda descreve melhor a tendência central dos dados. Isso é particularmente problemático quando temos dados contínuos, porque é mais provável que não tenhamos nenhum valor que seja mais frequente do que o outro. Além disso, outro problema com a moda é que ela não nos fornecerá uma medida muito boa de tendência central quando o ponto mais comum estiver longe do restante dos dados no conjunto de dados, como mostrado no diagrama abaixo:

No diagrama acima, a moda tem um valor de 2. Podemos ver claramente, no entanto, que a moda não é representativa dos dados, que estão principalmente concentrados na faixa de valores de 20 a 30. Assim, utilizar a moda para descrever a tendência central deste conjunto de dados seria enganoso.

Por fim e sobre estatística …

As medidas de tendência central, como a média, mediana e moda, desempenham um papel importante na análise estatística. Embora todas sejam medidas válidas, a escolha entre elas depende das características específicas do conjunto de dados em questão.

A média aritmética é amplamente utilizada e representa a soma de todos os valores dividida pelo número de valores no conjunto. Porém é sensível a valores extremos ou outliers, o que pode distorcer sua representação da tendência central. Em situações onde a distribuição dos dados é assimétrica ou influenciada por outliers, a mediana pode ser uma escolha mais apropriada, pois ela não é afetada por extremos.

Quanto à moda, a possibilidade de não ser única, além de poder não representar adequadamente a tendência central quando valores compartilham a maior frequência ou quando a distribuição é distorcida. Ou seja, a seleção da medida de tendência central depende da natureza dos dados e das características específicas do conjunto.

Referências:

Veja Mais:

Share.