niedziela, listopada 26, 2017

Średnia vs. mediana

Często gdy gdzieś podawane są dane o zarobkach pojawia się informacja o medianie i o tym, że mediana lepiej opisuje rzeczywistość od średniej...

Nie, wcale nie. Albo bardziej precyzyjnie, nie do końca i zależnie od tego co oznacza "opisywanie" rzeczywistości ;-)

Mediana to liczba, czy w przypadku zarobków kwota powyżej której znajdują się zarobki 50% badanych i poniżej niej znajdują się zarobki drugich 50% badanych.
W rzeczywistości mogą być 2 mediany, jeśli jest parzysta liczba próbek, ale to szczegół.

Średnia to suma wszystkich próbek, podzielona przez liczbę próbek.

Mediana dobrze opisuje rozkład z punktu widzenia pojedynczej próbki, średnia z punktu widzenia całej populacji.

Jeśli wiemy, że średnia pensja to powiedzmy 4600 PLN, to możemy w miarę łatwo znając rozmiar populacji policzyć ile pieniędzy mają wszyscy członkowie tej populacji.
Bo średnia to wartość dla której sumaryczny błąd (czyli zsumowana różnica między wartością dla pojedynczej próbki, a średnią, dla wszystkich próbek) będzie równa 0.
Do tego jeśli wyciągniemy 100 losowych ludzi to średnia z ich pensji będzie bliska średniej całej populacji (to jest akurat twierdzenie graniczne statystyki ;-)).
Średnia opisuje więc najlepiej rozkład "globalnie". Gdy interesuje nas 1 liczba, która najlepiej opisze całą populację to średnia jest tym co nas interesuje.
Z punktu widzenia badania "siły gospodarki" średnia się świetnie sprawdza.

Mediana działa bardziej lokalnie.
Wiedza, że mediana zarobków to 3510 PLN nie mówi nam wiele o całej populacji.
Mówi nam za to duże o najbardziej typowym przedstawicielu populacji.

Jeśli moglibyśmy udać się tylko na 1 polowanie na jednego przedstawiciela populacji to najpewniej złowilibyśmy takiego, którego pensja byłaby dość bliska mediany.

Mediana i średnia mogą znaczyć to samo, jak rozkład jest normalny.
Ale pensje nie podlegają rozkładowi normalnemu.

Jak już podlegają jakiemuś rozkładowi to bardziej rozkładowi potęgowemu (też nie do końca, ale wykres jest bardziej podobny, bo niemal blisko początku rozkładu mamy szczyt, a później bardzo długi ogon w kierunku wyższych liczb z gwałtownie malejącym prawdopodobieństwem)

Dlatego jeśli podajemy informacje o wynagrodzeniach gdy chodzi o opisanie całej populacji to średnia jest najlepszym sposobem na opisanie, bo mówi o całej populacji.
Gdy chcemy podać informacje o wynagrodzeniach tak by przeciętny człowiek mógł ją porównać ze swoimi zarobkami to powinniśmy używać mediany bo ona lepiej oddaje zarobki takiego pojedynczego ludzia.

Podobne postybeta
Android Marketowi odbiło
Pensje programistów
Język a postrzeganie rzeczywistości
Pierwsze hack'i pamięta się najlepiej ;-)
Przewidujemy wyniki wyborów ;-) - wyniki

Brak komentarzy:

Prześlij komentarz