Rozstęp

Rozstęp to najprostsza i najbardziej intuicyjna miara rozproszenia (dyspersji). Rozstęp to po prostu różnica między największą i najmniejszą wartością występującą w analizowanym zbiorze danych (Xmax– Xmin). Miara ta oznaczana jest najczęściej symbolem R. Jakich informacji nam dostarcza? Czego możemy się dowiedzieć obliczając rozstęp dla analizowanych przez nas danych? Przyjrzyjmy się poniższemu przykładowi.

Jako właściciele sieci sklepów z elegancką odzieżą chcemy porównać sprzedaż rozmiarów ubrań w dwóch punktach naszej sieci.

Wyliczając średnią arytmetyczną, zawsze warto policzyć też rozstęp dla zgromadzonych danych

W minionym miesiącu w butiku na ul. Przeciętnej sprzedaliśmy ubrania w następujących rozmiarach 38, 34, 38, 38, 42, natomiast w sklepie przy ul. Rozwarstwienie ubrania o następujących rozmiarach 34, 34, 44, 34, 44. Chcąc dowiedzieć się jaki rozmiar ubrań zamówić do poszczególnych sklepów na przyszły miesiąc, na prędze obliczamy średnią arytmetyczną sprzedawanych dotychczas rozmiarów w sklepie na ul. Przeciętnej i Rozwarstwienie. W obu przypadkach średni rozmiar sprzedanych ubrań to 38, ale rzut oka  na analizowane przez nas zbiory (zestawienia sprzedanych rozmiarów odzież) wystarczy by dostrzec, że w sklepie na ul. Rozwarstwienie nie sprzedano ani jednego ubrania w tym rozmiarze. Gdybyśmy złożyli zamówienie na dostarczenie do tego sklepu przede wszystkim ubrań w rozmiarze 38 prawdopodobnie odnotowalibyśmy  w następnym miesiącu znaczący spadek sprzedaży (klienci nie mogliby znaleźć dla siebie odpowiednich rozmiarów). Dostrzeżenie tej jakże ważnej różnicy między dwoma analizowanymi zbiorami jest niezwykle łatwe, kiedy analizowany przez nas zbiór, tak jak w powyższym przypadku, składa się z 5 – elementów. A co w sytuacji, kiedy udałoby nam się sprzedać 50 sztuk odzieży zarówno w sklepie na ul. Przeciętnej, jak  i w butiku przy ul. Rozwarstwienie? W takiej sytuacji wychwycenie „na oko” różnicy między dwoma analizowanymi zbiorami staje się bardzo trudne. I tu z pomocą przychodzi właśnie statystyka, w tym również miara rozproszenia jaką jest rozstęp.

Obliczając wartość rozstępu od wartości największej odejmujemy wartość najmniejszą

Po odnalezieniu największego i najmniejszego rozmiaru sprzedanego w sklepie przy ul. Przeciętnej wystarczy obliczyć różnice między tymi dwoma wartościami (42 – 34). W ten sposób poznajemy wartość rozstępu dla analizowanych przez nas danych. W tym przypadku rozstęp wynosi 8.  W sklepie na ul. Rozwarstwienie zaś wartość rozstępu to 10 (44 – 34). Biorąc pod uwagę, że im większa wartość rozstępu tym większe rozproszenie wyników wokół średniej, możemy stwierdzić, że przy ul. Rozwarstwienie częściej niż w butiku na ul. Przeciętnej były sprzedawane zarówno bardzo małe, jak i bardzo duże rozmiary ubrań – rozstęp jest tu większy. Obliczenie, jak i interpretacja tej miary rozproszenia nie powinna nastręczać Wam trudności. Tak jak pisaliśmy na wstępie rozstęp jest to najprostsza i najbardziej intuicyjna miara rozproszenia (dyspersji), jednocześnie jednak bywa bardzo zawodna.

Wyobraźcie sobie bowiem, że w minionym miesiącu w sklepie na ul. Przeciętnej sprzedaliście nie 5, ale 6 ubrań w rozmiarze 38, 34, 38, 38, 42, 44, a w sklepie na ul. Rozwarstwienie 34, 34, 44, 34, 44, 44. W tym przypadku nie tylko średnia dla obu analizowanych zbiorów jest taka sama (M=39), ale także rozstęp (R=10). Po raz kolejny jednak „na oko” widzimy, że te dwa zbiory różnią się od siebie, że w sklepie na ul. Rozwarstwienie sprzedawane były bardzo duże albo bardzo małe rozmiarówki, natomiast na ul. Przeciętnej większość rozmiarów ubrań była zbliżona do wyliczonej średniej. W takiej sytuacji warto oprócz rozstępu obliczyć jeszcze inne miary rozproszenia. Aby je poznać, zajrzycie do zakładki wariancja, odchylenie standardowe i współczynnik zmienności.

Miary Kształtu Rozkładu

Miary kształtu rozkładu to jedna z trzech grup statystyk opisowych, obok miar tendencji centralnych i miar rozproszenia (dyspersji). Za pomocą miar kształtu rozkładu, czyli skośności i kurtozy,  jesteśmy w stanie opisać kształt rozkładu analizowanych przez nas zmiennych, cech. Ale co to właściwie znaczy opisać kształt rozkładu zmiennych? Jakich konkretnych informacji dostarczają nam skośność i kurtozapodstawowe miary kształtu rozkładu? Aby w pełni zrozumieć idee  takich statystyk jak skośność i kurtoza, musimy najpierw zrozumieć pojęcie rozkładu normalnego.

Skoro chcemy opisać  kształt rozkładu, to potrzebujemy jakiegoś wzorca, matrycy, szablonu, do którego będziemy mogli „przyłożyć” rozkład naszej zmiennej uzyskany w przeprowadzonym badaniu. W Sevres, na zachodnich przedmieściach Paryża, w budynku Międzynarodowego Biura Miar i Wag, pod kilkoma warstwami ochronnego szkła znajduje się niewielki cylinder ze stopu platyny i irydu. To wzorzec jednego kilograma. Z tym wzorcem możemy porównać każdy z obciążników stawianych na szalkach wagowych, w każdym zakątku świata. Tak jak niepozorny cylinder z Sevres stanowi wzorzec jednego kilograma, tak rozkład normalny zwany także krzywą Gaussa, stanowi  wzorzec rozkładu.

 Na poziomej osi  rozkładu normalnego – osi X mieszczą się wartości zmiennej, na osi pionowej – osi Y tzw. gęstość.

Rozkład normalny, nasza matryca, ma charakterystyczny kształt dzwonu o określonej wysokości i szerokości. Na poziomej osi  rozkładu normalnego – osi X mieszczą się wartości zmiennej, na osi pionowej – osi Y tzw. gęstość. Analizując np. wagę dzieci w wieku przedszkolnym, na osi X umieścimy  wszystkie wartości masy ciała uzyskane w badaniu, oś Y będzie nas zaś informowała o liczbie dzieci, które osiągnęły daną wagę.

Idealistycznie zakładamy, że wszystkie zmienne ilościowe w danym zbiorze (populacji) będą miały właśnie rozkład normalny. Tak więc większość dzieci w wieku przedszkolnym powinna mieć przeciętną masę ciała – BMI w normie, stosunkowo mniej powinno być dzieci z niedowagą i nadwagą – wyniki skrajne. Niechęć do uprawnia sportów przez dzieci, opuszczanie lekcji w-f, zajadanie się chipsami robi jednak swoje i  problem otyłości wśród dzieci staje się coraz bardziej poważny. Niestety coraz częściej wśród dzieci pojawia się też problem bulimii i anoreksji. Przykładamy rozkład naszych wyników do naszej matrycy – krzywej Gaussa i okazuje się, że odbiega on od „idealistycznego wzorca”.

Takie „rozjechanie się” naszego rozkładu empirycznego z rozkładem normalnym może nastąpić w dwóch wymiarach.

Rozkład empiryczny, uzyskany w badaniu, niekoniecznie musi być  idealnie symetryczny

Przypatrując się krzywej Gaussa zauważycie, że jest ona symetryczna względem pionowej osi, która przechodzi w punkcie, w którym mieści się średnia wartość. Gdybyście złożyli kartkę ze schematem rozkładu normalnego wzdłuż tej osi, to dwie części rozkładu pokryłby się ze sobą idealnie, niczym dwie połówki rozkrojonych jabłek. Ale nasz rozkład empiryczny, uzyskany w badaniu, niekoniecznie musi być już tak idealnie symetryczny. Jeśli naszemu rozkładowi brak takiej symetrii względem osi pionowej mówimy, że jest rozkładem skośnym, a statystyka, która określa to zniekształcenie w sposób liczbowy to wspomniana na samym początku skośność. Jeśli chcecie dowiedzieć się więcej na temat tej statystyki zajrzycie do przekładki w bloku „Miary kształtu rozkładu” – „Skośność”.

Charakterystyczną cechą rozkładu normalnego jest jego „garb” opisywany  za pomocą miary kształtu rozkładu - kurtozy.

Oprócz symetrii względem osi pionowej przechodzącej przez punkt, w którym mieści się średnia wartość charakterystyczną cechą rozkładu normalnego jest jego „garb”. Wszelkie odstępstwa od tego „idealnego garbu”  są weryfikowane za pomocą kolejnej miary kształtu rozkładu tj. kurtozy. W bloku „Miary kształtu rozkładu” – „Kurtoza” znajdziecie szczegółowe omówienie tej statystyki.

Miary Rozproszenia

Miary rozproszenia (dyspersji) to kolejna podstawowa grupa statystyk opisowych, obok miar tendencji centralnej i miar kształtu rozkładu. O ile miary tendencji centralnych pozwolą nam wskazać miejsce największej koncentracji wyników w naszym zbiorze danych, miary symetrii rozkładu opisać kształt rozkładu naszych zmiennych, tak miary rozproszenia (dyspersji) pozwolą nam odpowiedzieć na pytanie: „jak bardzo uzyskane przez nas wyniki rozrzucone są wokół centralnego punktu rozkładu?”. Dla osób lubujących się we wszelkiego rodzaju definicjach podajemy krótką, zgrabną formułkę: „miary rozproszenia (dyspersji) to miary wykorzystywane do określenia rozkładu wartości zmiennej wokół wartości centralnej np. średniej. Do miar rozproszenia zaliczamy takie statystyki jak: rozstęp, odchylenie standardowe, wariancję, współczynnik zmienności”. Tyle teorii. Zobaczmy teraz jak każda z tych miar rozproszenia (rozstęp, odchylenie standardowe, wariancja, współczynnik zmienności) sprawdza się w praktyce i czemu właściwie służy.

Standardowo wcielmy się w rolę właściciela sieci butików z ekskluzywną odzieżą. Chcemy porównać zyski ze sprzedaży w dwóch naszych sklepach.

Obliczając średnią arytmetyczną warto również wyliczyć wartości dla miar rozproszenia (dyspersji)

W minionym miesiącu w sklepie na ulicy Przeciętnej sprzedaliśmy 5 sztuk odzieży w cenie: 40 zł, 40 zł, 50 zł, 60 zł i 60 zł. W drugim butiku, przy ulicy Rozwarstwienie, też sprzedaliśmy 5 ubrań, ale po następujących cenach 20 zł, 20 zł, 50 zł, 80 zł, 80 zł.  W obu sklepach sprzedaliśmy taką samą liczbę sztuk odzieży. Na prędze liczymy średnią cenę sprzedanych ubrań w obu butikach i okazuje się, iż w obu przypadkach średnia cena sprzedanych ubrań wyniosła 50 zł, ale gdy przypatrzymy się uważniej tym dwóm zbiorom  liczb (podsumowaniom sprzedaży w butiku na ul. Przeciętnej i Rozwarstwienie) zobaczymy, że te dwa zbiory znacząco różnią się od siebie. W sklepie na ulicy Przeciętnej sprzedaliśmy więcej ubrań, których cena była zbliżona do średniej ceny – 50 zł, na ulicy Rozwarstwienie częściej sprzedawaliśmy ubrania droższe (po 80 zł), poza tym  klienci częściej kupowali też  tańsze ubrania (po 20 zł). Wyobraźmy sobie teraz, że porównywana sprzedaż między dwoma butikami nie dotyczy 5 sprzedanych ubrań, ale 50. W takiej sytuacji wychwycenie „na oko” wskazanego powyżej zróżnicowania wyników wokół średniej byłoby bardzo trudne i tu z pomocą przychodzą właśnie miary rozproszenia (dyspersji), czyli rozstęp, odchylenie standardowe, wariancja i współczynnik zmienności.

Najprostszą i najbardziej intuicyjną miarą rozproszenia wyników jest rozstęp. I to właśnie od rozstępu rozpoczniemy swoją przygodę z miarami rozproszenia. Rozstęp to po prostu różnica pomiędzy największą i najmniejszą wartością występująca w danym zbiorze. Jedna z najprostszych statystyk opisowych.

Rozstęp to różnica pomiędzy największą i najmniejszą wartością występująca w danym zbiorze

Rozstęp dla ceny sprzedanych ubrań w butiku przy ul. Przeciętnej wynosi 20 zł (60 zł – 40 zł), przy ul. Rozwarstwienie 60 zł (80 zł – 20 zł). Już za pomocą tak prostej miary rozproszenia jak rozstęp możemy zidentyfikować znaczącą różnicę w dwóch analizowanych przez nas zbiorach danych, ale  miara ta  – rozstęp może okazać się zawodna.

Wyobraźmy sobie bowiem, że sprzedaż w minionym miesiącu w dwóch naszych butikach wyglądała w sposób następujący: przy ulicy Przeciętnej: 20 zł, 40 zł, 40 zł, 50 zł, 60 zł, 60 zł, 80 zł, przy ulicy Rozwarstwienia: 20 zł, 20 zł, 20 zł,  50 zł, 80 zł, 80 zł, 80 zł. Zarówno średnia arytmetyczna, jak i rozstęp dla obu tych zbiorów jest taki sam. Rozstęp wynosi 60 zł, średnia arytmetyczna 50 zł. Jednak po raz kolejny widzimy, że przy ulicy Rozwarstwienie częściej sprzedawaliśmy najtańsze (20 zł), jak i najdroższe (80 zł) ubrania z naszej kolekcji. Na pewno też po raz kolejny ciężko byłoby nam dostrzec taką różnicę, gdybyśmy w minionym miesiącu sprzedali więcej sztuk odzieży np. 50. I tu z pomocą poprzychodzą kolejne miary rozproszenia np. wariancja.

Wariancja to suma kwadratów odchyleń wyników od średniej podzielona przez liczbę wyników minus jeden. U wielu z Was pewnie włos zjeżył się teraz na głowie. Brzmi strasznie. Nie taki diabeł jednak straszny jak go malują. Wystarczy, że zajrzycie do linku „Wariancja”, który umieszczony jest w zakładce „Miary rozproszenia” a dowiedziecie się dokładnie, czym jest owa miara rozproszenia oraz jak ją obliczyć. Obliczając wariancję cen sprzedanych ubrań przy ulicy Przeciętnej (20 zł, 40 zł, 40 zł, 50 zł, 60 zł, 60 zł, 80 zł) powinniście uzyskać następujący wynik 366, 66 zł2, zaś w przypadku butiku przy ulicy Rozwarstwienie (20 zł, 20 zł, 20 zł,  50 zł, 80 zł, 80 zł, 80 zł) 900 zł2.

Im większa wartość wariancji, tym większe rozproszenie wyników wokół średniej

Porównując wyniki obu wartości wariancji można stwierdzić, iż w przypadku butiku przy ulicy Rozwarstwienie mamy do czynienia z większym rozproszeniem wyników wokół średniej (wyższa wartość wariancji)  – sprzedawaliśmy zarówno ubrania bardzo tanie, jak i bardzo drogie, w przypadku butiku przy ulicy Przeciętnej to zróżnicowanie jest już mniejsze. Z interpretacją wariancji jest jednak pewien problem. Jak pewnie zużyliście wartość wariancji podawana jest w jednostkach kwadratowych [zł2], aby więc uniknąć wszelkiego rodzaju nieporozumień, lepiej posługiwać się odchyleniem standardowym, kolejną miarą rozproszenia.

Odchylenie standardowe to pierwiastek kwadratowy z wariancji. Dzięki zastosowanemu pierwiastkowaniu  odchylenie standardowe jest wyrażane w tych samych jednostkach, co wartość zmiennej (w naszym przypadku w  zł). Odchylenie standardowe  dla cen sprzedanych ubrań w butiku przy ul. Przeciętnej wynosi 19,14 zł (√366,66 zł2), a w butiku przy ul. Rozwarstwienie 30 zł (√900 zł2).

Odchylenie standardowe to pierwiastek kwadratowy z wariancji

Oznacza to, iż w obu butikach średnia cena sprzedawanych ubrań wynosi 50 zł, ale w butiku przy ul. Przeciętnej zakupy poszczególnych klientów odchylają się od tej kwoty o +/- 19, 14 zł, a w przypadku klientów z ul. Rozwarstwienie aż o +/- 30 zł.

Warto zapamiętać, iż wariancja i odchylnie standardowe to miary rozproszenia, które dostarczają nam tę samą informację. Znając wariancję, znamy odchylenie standardowe i odwrotnie. Ze względu jednak na „przyjazność” interpretacji lepiej jest się posługiwać odchyleniem standardowym.

Na koniec została nam jeszcze jedna miara rozproszenia. Ponieważ w dzisiejszych czasach wiele wartości podawanych jest %, warto pamiętać o  współczynniku zmienności, którego wartość podawana jest właśnie w %. Współczynnik zmienności to iloraz odchylenia standardowego i średniej arytmetycznej przemnożony przez 100% (SD/ M*100%). Ceny sprzedanych ubrań przy ul. Przeciętnej będą charakteryzować się następującym współczynnikiem ziemności 38,28%, przy ul. Rozwarstwienie zaś 60%. Jest to kolejna miara rozproszenia, która informuje nas o tym, iż zróżnicowanie cenowe sprzedawanych ubrań na ul. Przeciętnej jest mniejsze niż w przypadku ubrań sprzedawanych na ul. Rozwarstwienie. Szczegółową interpretację współczynnika zmienności znajdziecie w zakładce „Miary rozproszenia” pod linkiem „Współczynnik zmienności”.

Tych kilka pobieżnych analiz, obliczenie rozstępu dla analizowanych przez nas zbiorów danych, wariancji, odchylenia standardowego, a także współczynnika zmienności każe nam przypuszczać, iż mimo, że średnia cena sprzedawanych ubrań w obu naszych butikach jest taka sama (50 zł), to w obu sklepach mamy do czynienia z różnymi typami klienta. Do sklepu na ul. Przeciętnej przychodzą raczej klienci średniozamożni, którzy kupują ubrania po cenie zbliżonej do średniej ceny sprzedawanych produktów – 50 zł, sklep na ul. Rozwarstwienie odwiedzają zarówno klienci o mniej zasobnych portfelach, jak i nieco bardziej zamożni, kupowane są tu produkty bardzo drogie, ale i bardzo tanie. To bardzo cenna informacja dla każdego przedsiębiorcy, a uzyskana dzięki niezastąpionym miarą rozproszenia.

Miary Tendencji Centralnej

Miary Tendencji Centralnej to jedna z trzech podstawowych grup statystyk opisowych. Dwie pozostałe to miary rozproszenia (dyspersji) i miary symetrii rozkładu. Za pomocą każdej z tych grup możemy dokonać „liczbowej charakterystyki” rozkładu wartości interesującej nas zmiennej, grupy wyników. Co to znaczy?

Wyobraźmy sobie, że jesteśmy producentem eleganckiej odzieży eksportującym swój towar do dwóch krain: Krainy Krasnali  i Krainy Wielkoludów. Zebraliśmy właśnie dane na temat liczby sprzedanych rozmiarów ( S, M, L) w tych dwóch krainach. Wiemy, że w minionym miesiącu w Krainie Krasnali sprzedaliśmy 13 sztuk ubrań w rozmiarze „S”, 5 w rozmiarze „M” i 1 w rozmiarze „L”, natomiast w Krainie Wielkoludów sprzedano 5 ubrań w rozmiarze „S”, 3 w rozmiarze „M” i „14” w rozmiarze L.

Do miar tendencji centralnych zaliczamy dominantę, medianę i średnią

Oczywiście możemy porównać sprzedaż w Krainie Krasnali i Wielkoludów „na oko” i na tej podstawie stworzyć strategię rozwoju naszej firmy, ale zdecydowanie lepszym  rozwiązaniem będzie posłużenie się pewnymi wielkościami służącymi do charakterystyki analizowanych grup wyników. Do tego służą właśnie statystyki opisowe: miary tendencji centralnej, miary rozproszenia (dyspersji) i miary symetrii rozkładu. Dlaczego wyróżniamy aż trzy grupy statystyk opisowych? Bo tak jak w przypadku eleganckiej sukni możemy ją opisać pod kątem ceny, jakości wykonania i stylu, tak otrzymane wyniki możemy scharakteryzować pod kątem różnych aspektów: miejsca największej koncentracji wyników (miary tendencji centralnej), zróżnicowania w rozrzucie wyników wokół centralnego punktu rozkładu (miary rozproszenia), czy kształtu rozkładu (miary symetrii rozkładu).

W tym artykule scharakteryzujmy otrzymane przez nas wyniki przez pryzmat miar tendencji centralnej, czyli opiszemy miejsce największej koncentracji wyników.  Możemy to zrobić za pomocą: dominanty (nazywaną również modalną, modą), mediany i średniej.

Najprostszą miarą tendencji centralnej jest wartość najczęściej występująca, czyli  właśnie dominanta. Dla nas jako producentów eleganckiej odzieży bardzo ważne jest ustalenie, który z rozmiarów jest najczęściej kupowany zarówno w Krainie Krasnali i Krainie Wielkoludów.  Biorąc pod uwagę uzyskane powyżej wyniki nie powinniśmy mieć z tym żadnego problemu. W Krainie Krasnali najczęściej zakupywanym rozmiarem jest „S”, a więc Mo (dominata) = „S”, w Krainie Wielkoludów Mo (dominata) = „L”.

Najprostszą miarą tendencji centralnej jest wartość najczęściej występująca, czyli dominanta

Najłatwiej jest odczytać wartość dominaty za pomocą wykresów słupkowych. Co istotne, dominantę możemy wyznaczyć dla różnego rodzaju zmiennych np. nominalnych (kolor zakupywanej odzieży), porządkowych (rozmiar zakupywanej odzieży), czy ilościowych (cena zakupywanej odzieży).

Kolejną istotną dla nas kwestią jest ustalenie, jaką przeciętną kwotę mieszkańcy Krainy Krasnali płacili za ubrania w rozmiarze „S”, najpopularniejszy rozmiar. Możemy to zrobić za pomocą mediany (nazywanej także wartością środkową, przeciętną, lub drugim kwartylem) . Załóżmy, że tych 13 ubrań  w rozmiarze „S”, zostało sprzedanych po następujących cenach (wyrażonych w złotych kamieniach): 1,1,1,1, 1, 2, 2, 2, 3, 3, 3,4, 5. Mediana, która jest wartością dzielącą uszeregowany zbiór danych „na pół” (poniżej i powyżej mediany znajduje się 50% wszystkich obserwacji) pokazuje, że przeciętny koszt zakupu eleganckiej odzieży w rozmiarze „S” przez mieszkańców Krainy Krasnali to 2 złote kamienie (7 element zbioru).

Mediana jest wartością dzielącą uszeregowany zbiór danych „na pół” (poniżej i powyżej mediany znajduje się 50% wszystkich obserwacji)

W trzynastoelementowym zbiorze łatwo jest wyznaczyć medianę, ale co w sytuacji kiedy nasz zbiór składa się z większej liczby elementów? Wtedy warto posłużyć się wzorem na pozycję mediany:

Wzór na pozycję mediany

gdzie „n” to liczba elementów w zbiorze. W naszym przykładzie pod „n” wstawiamy więc 13 i przeprowadzamy następujące obliczenia: (13+1)/ 2. Wynik jaki otrzymujemy – „7” wskazuje na element zbioru, którego wartość będzie równa wartości mediany. W tym przypadku jest to element „7”, któremu przypisana jest wartość „2”, czyli mediana dla naszego zbioru wynosi dwa złote kamienie. Co ważne, za każdym razem, kiedy będziemy chcieli wyznaczyć w naszym zbiorze medianę musimy pamiętać, aby zebrane przez nas dane uszeregować od najmniejszych po największe, albo od największych po najmniejsze. Dlatego też mediany nie wyznaczymy dla zmiennych nominalnych np. kolorów zakupywanych ubrań, gdyż takiego zbioru jak: zielony, czerwony, fioletowy, niebieski itd. nie jesteśmy w stanie uszeregować od wartości najmniejszych po największe, czy od największych po najmniejsze.

Na koniec, chcemy ustalić ile średnio ubrań w rozmiarze „S”, „M” i „L” sprzedaliśmy w obu krainach w minionym miesiącu. W tym przypadku musimy skorzystać ze średniej arytmetycznej, kolejnej miary tendencji centralnej. Jak wyliczyć średnią liczbę sprzedanych ubrań w rozmiarze „S” przez naszą firmę? Sumujemy liczbę ubrań sprzedanych w Krainie Krasnali i Krainie Wielokoludów (13 +5) i dzielimy przez liczbę wyników (dwie krainy = dwa wyniki), czyli

Przykład obliczeń dla średniej arytmetycznej

Wyniki średniej arytmetycznej wskazują, iż w minionym miesiącu średnia sprzedaż ubrań w rozmiarze „S” to 9 sztuk. Analogicznie postępujemy w przypadku wyliczenia średniej liczby sprzedanych ubrań w rozmiarze „M” i rozmiarze „L”. Tu wyniki przedstawiają się następująco: średnia sprzedaż ubrań w rozmiarze „M” w minionym miesiącu  to 4 sztuki, w rozmiarze „L” – 7,5 sztuki. Przy liczeniu średniej arytmetycznej musimy pamiętać, iż  jest ona najbardziej „ekskluzywną” miarą tendencji centralnej i możemy ją policzyć tylko i wyłącznie dla zmiennych ilościowych, czyli np. liczby sprzedanych ubrań, czy ich ceny. Średniej arytmetycznej nie policzymy dla zmiennych porządkowych (rozmiar ubrań), czy zmiennych nominalnych (kolor ubrań).

Korzystając z trzech miar tendencji centralnej (dominanty, mediany, średniej arytmetycznej), które pozwalają opisać miejsce największej koncentracji wyników, pokazaliśmy ile cennych informacji możemy uzyskać na temat analizowanego przez nas zbioru danych. Ale możemy dowiedzieć się o nim jeszcze więcej, analizując go przez pryzmat dwóch pozostałych grup statystyk opisowych tj. miar rozproszenia (dyspersji) i miary symetrii rozkładu.

Kurtoza

Kurtoza to miara zagęszczenia (koncentracji) wyników wokół wartości centralnej. Jedna z dwóch (obok skośności) miar kształtu rozkładu. Kurtoza w rozkładzie normalnym przyjmuje wartość „0”. Jeśli wartość tej statystyki jest większa od zera wówczas mamy do czynienia z rozkładem leptokurtycznym (wysmukłym). Jeśli kurtoza jest mniejsza od zera nasz rozkład jest rozkładem platykurtycznym (spłaszczonym). Ale co to właściwie znaczy rozkład leptokurtyczny, platykurtyczny? Jakie wnioski możemy wyciągnąć na podstawie informacji, iż rozkład danej zmiennej jest np. rozkładem leptokurtycznym?

Na początek mała powtórka wiadomości o rozkładzie normalnym. Tak jak pisaliśmy w artykule „Miary kształtu rozkładu” rozkład normalny to swoistego rodzaju wzorzec, matryca, do której „przykładamy” uzyskane wyniki zebrane podczas badania. Rozkład naszych wyników może, a właściwie to zawsze będzie odbiegać od wzorca, jakim jest rozkład normalny. Ta rozbieżność dotyczy dwóch wymiarów. Pierwszy wymiar to brak symetrii. Rozkład normalny jest idealnie symetryczny względem pionowej osi przebiegającej dokładnie w punkcie, w którym mieści się wartość średniej. Nasz rozkład pewnie tak symetryczny nie będzie. Będzie rozkładem asymetrycznym, o czym poinformuje nas taka miara kształtu rozkładu jak skośność, o której więcej możecie przeczytać w artykule zatytułowanym „Skośność”. Kiedy „przyłożymy” nasz rozkład do rozkładu normalnego zauważymy również, że rozkład normalny ma określoną wysokość „garba”.  Wszelkie odstępstwa od tego wymiaru będziemy diagnozować właśnie za pomocą takiej statystyki jak kurtoza.

W rozkładzie leptokurtycznym wartość kurtozy przyjmuje wartości dodatnie (K>0)

Czas na przykład. Standardowo już wcielamy się w rolę właściciela sieci butików z ekskluzywną odzieżą, który porównuje sprzedaż w minionym miesiącu w dwóch swoich sklepach. W pierwszym z nich na ulicy Wysmukłej sprzedano 10 sztuk odzieży w cenie: 200 zł,200 zł ,300 zł,300 zł, 300 zł, 300 zł, 300 zł, 300 zł, 400 zł, 400 zł.  Na ulicy Spłaszczonej zaś również sprzedano 10 sztuk odzieży, ale w następujących cenach: 100 zł,100 zł, 200 zł, 200zł, 300 zł, 300 zł, 400 zł, 400zł, 500 zł, 500 zł.  Średnia cena sprzedanych ubrań w obu sklepach to 300 zł. Jednakże przypatrując się uważniej wynikom dostrzeżemy, że w butiku na ulicy Wysmukłej sprzedano więcej ubrań po średniej cenie – 300 zł. W butiku na ulicy Spłaszczonej tylko dwa ubrania zostały sprzedane po 300 zł. Zauważenie tej prawidłowości  „na oko” w przypadku 10 – elementowego zbioru  jest niezwykle łatwe. Ale co w sytuacji, gdyby nasz zbiór był zbiorem 100 – elementowym (gdybyśmy zamiast 10 ubrań, sprzedali ich 100)? Tu z pomocą przychodzi właśnie taka miara kształtu rozkładu jak kurtoza. Kurtoza dostarcza nam informacji jak dużo uzyskanych przez nas wyników jest zbliżonych do średniej. Jeśli tych wyników jest sporo, a tym samym wyników skrajnych (wysokich, niskich, ubrań bardzo tanich, bardzo drogich) jest mało, to kurtoza przyjmuje wartość powyżej „0”. Wyniki są bardzo skoncentrowane wokół średniej, „garb” rozkładu jest wyższy niż w rozkładzie normalnym, rozkład jest wysmukły, czyli leptokurtyczny. Jeśli zaś kurtoza jest mniejsza od zera, to oznacza, że w naszym zbiorze dużo jest wyników skrajnych (bardzo wysokich, bardzo niskich, ubrań bardzo tanich, ale też i bardzo drogich), natomiast mało wyników zbliżonych do średniej. „Garb” rozkładu jest w tym przypadku bardziej płaski niż w rozkładzie normalnym, rozkład jest spłaszczony. Fachowo nazwiemy go rozkładem platykurtycznym. Tak więc wyliczone przez nas wartości kurtozy dla butiku na ulicy Wysmukłej i na ulicy Spłaszczonej powinny przyjąć odpowiednio wartości > 0 i < 0.

W rozkładzie platykurtycznym wartość kurtozy przyjmuje wartości ujemne (K<0)

Wiemy już czym jest, jak wygląda rozkład leptokurtyczny, platykurtyczny, ale wertując mądre podręczniki dotyczące statystyki opisowej możemy natknąć się na jeszcze jedną nazwę „rozkład mezokurtyczny”. To rozkład będący odzwierciedleniem rozkładu normalnego. Wartość kurtozy w tym przypadku wynosi „0”.

W rozkładzie mezokurtycznym wartość kurtozy przyjmuje wartość zero (K=0)

Na koniec coś dla wzrokowców – obrazek, na którym znajdują się trzy wspomniane rozkłady (lepto-, mezo- i platykurtyczny) i dobra rada dla tych wszystkich, którzy lubią zapamiętywać informację na zasadzie nietypowych skojarzeń. Rozkład leptokurtyczny to taki, który lepi się do góry, czyli ciągniemy go do sufitu i staje się wysmukły. Platykurtyczny jest zaś tak płaski, spłaszczony niczym talerz (po angielsku „plate”), z którego jemy niedzielny obiad 🙂  Takie plastyczne zobrazowanie nazw obu rozkładów przedstawił nam kiedyś doktor T. G., na wykładzie ze statystyki. Dziękujemy, zapamiętaliśmy do końca życia 🙂

Jeśli kurtoza jest mniejsza od zera to rozkład jest  platykurtyczny (spłaszczonym), jeśli wartość kurtozy jest większa od zera rozkład jest leptokurtycznym (wysmukły)

Średnia arytmetyczna

Średnia arytmetyczna to suma wartości wszystkich zmiennych danego zbioru podzielona przez liczbę tych zmiennych. Jest to najbardziej popularna, najbardziej intuicyjna  miara tendencji centralnej. To za pomocą średniej arytmetycznej najczęściej opisywane jest miejsce największej koncentracji wyników w danym zbiorze. Najprostszy przykład – średnia ocen szkolnych. W opracowaniach, tekstach statystycznych symbol średniej arytmetycznej to M od angielskiego słowa mean, ale można się również spotkać z takim oznaczeniem: Ẋ. Tyle z książkowej teorii. Przypomnijmy sobie teraz jak oblicza się średnią arytmetyczną krok po kroku (zobacz też jak obliczyć średnią arytmetyczną w excelu).

Wcielamy się ponownie w rolę właściciela sklepu z elegancką odzieżą, który w minionym miesiącu sprzedał 13 ubrań ze swojej wiosennej kolekcji po następujących cenach: 50 zł, 50 zł, 75 zł, 85 zł, 85 zł, 90 zł, 90 zł, 120 zł, 250 zł, 250 zł, 350 zł, 50 zł, 75 zł. Teraz chcemy się  dowiedzieć ile średnio klienci sklepu płacili za ubrania. W tym celu musimy policzyć średnią arytmetyczną. Jak to zrobić?

Średnia to statystyka zaliczająca się do grupy miar tendencji centralnych

W pierwszym kroku należy dodać do siebie wszystkie wartości danego zbioru, czyli w naszym przypadku wszystkie ceny sprzedanych ubrań.50 zł +50 zł + 75 zł + 85 zł +85 zł +90 zł + 90 zł + 120 zł +250 zł + 350 zł + 50 zł + 75 zł. Wynik dodawania to 1620 zł. Taki jest nasz miesięczny utarg uzyskany ze sprzedaży 13 ubrań.

Średnia arytmetyczna 2

Nas natomiast interesuje wyliczenie średniej wartości po jakiej były kupowane ubrania w naszym butiku. W tym celu uzyskaną sumę: 1620 zł musimy podzielić przez liczbę sprzedanych sztuk odzieży, czyli przez liczbę elementów tworzących zbiór, dla którego wyliczamy średnią arytmetyczną. Wynik  tego działania to 124 zł i 62 gr. Przeglądając nasz zbiór danych, ceny 13 sztuk odzieży, które sprzedaliśmy w minionym miesiącu nie odnajdziemy tam oczywiście takiej wartości jak 124 zł i 62 gr. Wartość średniej arytmetycznej nie musi być tożsama  z jakąkolwiek wartością znajdującą się w analizowanym zbiorze. Średnia arytmetyczna pokazuje nam po prostu, że gdybyśmy ujednolicili ceny swoich towarów, to aby uzyskać utarg w wysokości 1620 zł każda sprzedana przez nasz rzecz musiałaby kosztować 124 zł i 62 gr.

Średnia arytmetyczna 3

Czy myśląc więc o przyszłej kolekcji warto rozpatrzyć wprowadzenie  jak największej liczby modeli, których cena będzie wynosić 124 zł i 62 gr? Czy wprowadzając  do nowej kolekcji jak najwięcej modeli  w przeciętnej, średniej cenie zwiększamy swoje szanse na powiększenie utargu?

Niekoniecznie. Ze średnią arytmetyczną jest bowiem pewien bardzo istotny  problem – nie jest ona odporna na wyniki skrajne. Co to oznacza? Wyobraźmy sobie, że w minionym miesiącu oprócz wspomnianych już wcześniej 13 ubrań w cenie: 50 zł, 50 zł, 75 zł, 85 zł, 85 zł, 90 zł, 90 zł, 120 zł, 250 zł, 250 zł, 350 zł, 50 zł, 75 zł, udało się nam sprzedać jeszcze jedną bardzo szykowną, elegancką  jedwabną suknię za bagatela 2500 zł. Nasz zbiór powiększył się o jeden element, jedną dodatkową sztukę sprzedanej odzieży. Wyliczmy teraz dla tego 14 – elementowego zbioru ponownie średnią arytmetyczną. Suma jaką uzyskamy teraz po dodaniu wszystkich cen wyniesie: 4 120 zł. Aby poznać wartość średniej arytmetycznej kwotę tę musimy podzielić przez 14 (liczba elementów w naszym nowym zbiorze). Wynik tego działania i jednocześnie nowa wartość średniej arytmetycznej to: 294 zł i 29 gr. Oznacza to, że gdybyśmy ujednolicili ceny tego 14 – elementowego zbioru, aby otrzymać  miesięczny utarg na poziomie 4 120 zł każda ze sprzedanych rzeczy musiałaby kosztować 294 zł i 29 gr. Czy takie ujednolicenie ceny to dobry pomysł?

Raczej niekoniecznie. Po pierwsze, gdybyśmy sprzedali naszą szykowną, elegancką jedwabną suknię po 294 zł i 29 gr prawdopodobnie bylibyśmy stratni (koszt wyprodukowania byłby wyższy niż uzyskany dochód). Po drugie prawdopodobnie niewielu naszych klientów stać by było na zapłacenie za ubranie aż 294 zł i 29 gr. Przyglądając się dokładnie wszystkim 14 sprzedanym modelom widzimy, że tylko dwa z nich zostały sprzedane po cenie powyżej 294 zł i 29 gr. Była to nasza elegancka jedwabna suknia i ubranie za 350 zł. Widzimy więc że średnia arytmetyczna to statystyka, która niekiedy bardzo zniekształca rzeczywistość, dlatego opisując miejsce największej koncentracji wyników warto skorzystać również z innych miar tendencji centralnych np. dominanty lub mediany, a także posłużyć się miarami rozproszenia.

Na koniec warto jeszcze pamiętać o jednej rzeczy. Średnia arytmetyczna jest bardzo ekskluzywną statystyką. Policzymy ją tylko dla danych ilościowych takich jak np. cena produktów. Nie ustalimy natomiast średniego koloru sprzedawanych ubrań (dane nominalne), czy rozmiaru odzieży analizowanego na skali porządkowej: S, M, L, XL.

Zobacz ja wyliczyć ŚREDNIĄ ARYTMETYCZNĄ W EXCELU

Dominanta

Dominanta (inaczej modalna, moda) jest to taka wartość zmiennej, która w danym zbiorze występuje najczęściej. Obok mediany i średniej jest główną miarą tendencji centralnej, czyli za pomocą dominanty możemy opisać miejsce największej koncentracji wyników. Symbol dominanty lub inaczej wartości modalnej to Mo. Tyle teoria. Zobaczmy teraz jak wyznaczyć modalną w praktyce i jakie informacje możemy zdobyć wyznaczając tę statystykę dla naszego zbioru.

Ponownie  wcielamy w rolę producenta odzieży, który tym razem chce się dowiedzieć po jakiej cenie, w minionym miesiącu, najczęściej były sprzedawane wyprodukowane prze niego markowe  koszulki z kolorowymi nadrukami. Interesuje nas zatem wyznaczenie dominującej ceny wszystkich sprzedanych t-shirts w minionym miesiącu, czyli mówiąc językiem statystyków wyznaczenie dominanty (zobacz także jak wyliczyć dominantę w excelu). Załóżmy, że w ciągu ostatnich 30 dni udało nam się sprzedać 5 markowych t-shirts w następujących cenach: 100 zł, 120 zł, 120 zł, 120 zł, 180 zł. Krótkie pytanie „która cena występuje najczęściej?”, rzut oka na powyższy zbiór i już mamy wyznaczoną dominantę. Jest to oczywiście 120 zł.

Dominanta (inaczej modalna, moda) to wartość zmiennej, która występuje najczęściej.

Wszystko na razie wygląda więc bardzo prosto. Co jednak w przypadku, kiedy w minionym miesiącu  udałoby się nam sprzedać również 5 koszulek, ale po następujących cenach: 100 zł, 100 zł, 120 zł, 120 zł i 180 zł? Sprzedaliśmy  więc dwie koszulki za 100 zł i dwie za 120 zł. Statystycy fachowo nazywają taki rozkład wielomodalnym. Mamy tu do czynienia po prostu  z dwoma dominantami. Jest to oczywiście 100 zł i 120 zł.

W rozkładzie wielomodalnym  mamy więcej niż jedną dominantę

No dobrze, a co w sytuacji kiedy sprzedaż koszulek w minionym miesiącu wyglądałaby następująco: 80 zł, 100 zł, 120 zł, 140 zł, 180 zł. Każda z tych cen jest unikalną, niepowtarzalną wartością. Jaka jest więc wartość dominanty? W tym przypadku mamy do czynienia z największą wadą wartości modalnej, a mianowicie są takie zbiory danych, w której wartość ta w ogóle nie występuje.

Są takie zbiory danych, w której wartość dominanty w ogóle nie występuje

Dotychczas analizowaliśmy tylko sprzedaż koszulek z danego miesiąca. Wyobraźmy sobie jednak, że chcemy się dowiedzieć jaka była najczęstsza cena sprzedanych przez nas t-shirts w przeciągu minionego roku, czyli chcemy dowiedzieć się jaka jest wartość modalna ceny z ostatnich 12 miesięcy. Nawet jeśli w przeciągu każdego miesiąca sprzedawaliśmy  zaledwie 5 koszulek, nasz zbiór danych i tak będzie składał się aż z 60 elementów (5×12). Tu już rzut oka nie wystarczy, żeby wyznaczyć wartość pojawiającą się najczęściej. W takiej sytuacji najlepiej wspomóc się wykresem słupkowym. Za jego pomocą bardzo szybko zidentyfikujemy modalną.

Za pomocą wykresu słupkowego bardzo łatwo wyznaczyć wartość modalną

Wiemy już jaka jest najpopularniejsza cena sprzedanych przez nas koszulek. A czy istnieje możliwość  sprawdzenia jaki jest najczęstszy rozmiar zakupowych ubrań oraz ich kolor? Oczywiście, że tak. Dominantę wyznaczymy też   dla takiego zbioru jak XS, XS, S, L, M, czy zielony, zielony, zielony, niebieski, bordowy. W tym pierwszym przypadku wartością modalną będzie rozmiar XS, w drugim dominanta to kolor zielony. Oznacza, to że wartość modalną możemy wyznaczyć dla zmiennych mierzonych na dowolnych skalach pomiarowych: nominalnych, porządkowych, czy ilościowych. A jak istotne są tego typu informacje – „który z towarów, w jakim kolorze, w jakiej cenie, w jakim rozmiarze jest najbardziej chodliwy?”, chyba nikogo nie trzeba przekonywać. Z pomocą statystyki opisowej możemy dowiedzieć się z resztą dużo więcej. Chcecie na przykład poznać przeciętną, średnią cenę sprzedanych ubrań? Zajrzyjcie do zakładki: mediana, średnia arytmetyczna.

Zobacz jak wyliczyć DOMINANTĘ W EXCELU

Wariancja

Wariancja to obok rozstępu, odchylenia standardowego i współczynnika zmienności jedna z podstawowych miar rozproszenia (dyspersji). Informuje nas o tym jak bardzo wartości analizowanego przez nas zbioru rozrzucone są wokół średniej. Interpretacja wariancji jest następująca: im wyższa wartość wariancji, tym większe rozproszenie wyników. Symbol wariancji to SD2. Gdybyśmy chcieli zdefiniować wariancję, moglibyśmy powiedzieć, że jest to suma kwadratów odchyleń wyników od średniej dzielona przez liczbę wyników minus jeden. Brzmi strasznie i z pewnością dla wielu z Was dość enigmatycznie. Spójrzmy więc na wariancję oczami praktyka. Odwołajmy się do konkretnego przykładu i zobaczmy po co w ogóle obliczmy taką statystykę jak wariancję.

Jesteśmy właścicielami sieci sklepów z ekskluzywną odzieżą, w której zostawiamy dużą dowolność sprzedawcom w przyznawaniu rabatów dla stałych klientów. Postanowiliśmy jednak porównać wysokość rabatów przyznawanych w  dwóch różnych butikach należących do naszej sieci. W sklepie A w minionym miesiącu przyznano 5 rabatów: 4%, 4%, 5%, 6% i 6%. W sklepie B odnotowano zaś  takie rabaty: 2%, 2%, 5%, 5%, 8%, 8%. W obu przypadkach średni poziom zniżki jaki został udzielony stałemu klientowi wynosi 5%. Przyglądając się jednak bliżej dwóm analizowanym zbiorom danych (zestawieniom rabatów ze sklepu A i B) bez trudu zobaczymy, że w sklepie A wszystkie przyznane rabaty zbliżone są do średniej – 5%, w sklepie B można zaś było otrzymać nawet 8% rabat, ale i zdarzały się obniżki o zaledwie 2%. W tym przypadku zróżnicowanie rabatów jest dużo większe. Dostrzeżenie, tej jakże ważnej różnicy, byłoby bardzo trudne, gdybyśmy analizowali większe zbiory danych np. gdyby w każdym z analizowanych przez nas sklepów w minionym miesiącu przyznano aż 50 rabatów. I tu z pomocą przychodzą właśnie miary rozproszenia, w tym wariancja, które pokazują nam jak bardzo wartości naszej zmiennej rozrzucone są wokół średniej.

Obliczając średnią arytmetyczną dla danego zbioru warto również policzyć wariancję - zróżnicowanie wyników

Zobaczmy więc jaka jest wariancja (zróżnicowanie, rozproszenie) wysokości rabatów przyznawanych w sklepie A i w sklepie B. Jaki jest wzór na wariancję? Jak obliczyć tę statystykę?

W pierwszym kroku od każdego wyniku wchodzącego w skład analizowanego przez nas zbioru musimy odjąć średnią [X- M]. W przypadku sklepu A, musimy więc wykonać 5 następujący działań: 4%- 5%, 4%- 5%, 5%- 5%, 6%-5%, 6%-5%. Wyniki tych 5 działań są następujące: (-1%), (-1%), (0%), (1%), (1%). Następnie każdą z otrzymanych różnic podnosimy do kwadratu (X – M)2, czyli (-1%)2, (-1%)2, (0%)2, (1%)2, (1%)2. W wyniku potęgowania otrzymujemy następujące wyniki: 1%2, 1%2, 0%2, 1%2, 1%2. Teraz dodajemy do siebie te wyniki. Suma wynosi 4%2. Poniżej tabelka, gdzie możecie prześledzić raz jeszcze poszczególne obliczenia.

Obliczenie wariancji krok po kroku

Ostatnim działaniem jakie musimy przeprowadzić, to podzielenie otrzymanej sumy przez liczbę wyników (w naszym przypadku 5; 5 przyznanych rabatów) pomniejszoną przez jeden (n-1), czyli 4%2/ 5 -1. Wynik tego działania, a jednocześnie wynik wariancji, to 1%2.

Wariancja to suma kwadratów odchyleń wyników od średniej dzielona przez liczbę wyników minus jeden

Czy taka wartość wariancji świadczy o dużym, małym rozproszeniu wyników ciężko powiedzieć. Z interpretacją wariancji jest pewien problem. Jak pewnie zauważyliście jej wartość podawana jest w jednostkach kwadratowych, co może wprowadzać pewną niejasność, dlatego też lepiej jest posługiwać się inną miarą rozproszenia – odchyleniem standardowym, które jest pierwiastkiem kwadratowym z wariancji, czyli √SD2. Odchylenie standardowe wynosi w naszym przypadku wynosi 1%, oznacza to że w sklepie A średni poziom przyznawanych rabatów to 5%, ale większość klientów otrzymało rabaty w wysokości 5% +/- 1%. A jak to wygląda w przypadku sklepu B?

Skorzystajmy z tego samego wzoru na wariację, co powyżej. W wyniku przeprowadzania kolejnych działań powinniśmy otrzymać następujący wynik – 7%2, to wartość wariancji dla wysokości rabatów przyznanych w sklepie B. Wartość wariancji jest w tym przypadku o wiele większa niż w sklepie A (1%2). Biorąc więc pod uwagę,  że im wyższa wartość wariancji, tym większe rozproszenie wyników, możemy stwierdzić, iż zróżnicowanie wysokości rabatów przyznawanych w sklepie B jest większe niż w sklepie A. Na koniec możemy jeszcze policzyć odchylenie standardowe wysokości rabatów w sklepie B, czyli √7%2. Odchylenie standardowe w tym przypadku to 3%. Podsumowując, w sklepie B średni poziom przyznawanych rabatów to również 5%, ale większość klientów otrzymywało rabaty w wysokości 5% +/- 3%, tymczasem w przypadku sklepu A rabaty oscylowały w wysokości 5% +/- 1%.

Odchylenie standardowe

Odchylenie standardowe to jedna z czterech podstawowych miar rozproszenia (dyspersji), dzięki której możemy zbiór naszych danych scharakteryzować pod kątem zróżnicowania wyników wokół centralnego punktu rozkładu. Pozostałe miary rozproszenia to: wariancja, rozstęp i współczynnik zmiennościOdchylenie standardowe informuje nas jak bardzo wartości jakieś zmiennej są rozrzucone wokół średniej. Wysokie wartości odchylenia standardowego świadczą o dużym rozproszeniu wyników wokół średniej. Wyniki odchylenia standardowego zapisujemy za pomocą symbolu SD. Tyle teorii. A jak to wygląda w praktyce? Jaki jest wzór na odchylenie standardowe i po co w ogóle wyliczamy tego typu statystykę?

Wyobraźmy sobie, że jako producent markowej odzieży chcemy dowiedzieć się ile średnio w miesiącu studenci wydają na zakup ubrań. Przeprowadziliśmy badanie na interesującej nas próbie, z którego wynika, iż średnio w miesiącu na zakup odzieży studenci przeznaczają 100 zł. Czy to znaczy, że każdy student w miesiącu kupuje ubrania za kwotę 100 zł? Oczywiście, że nie. Wśród nich na pewno są osoby, które wydają na ubrania więcej albo mniej np. Kasia może miesięcznie przeznaczać na zakup ubrań 150 zł, Marysia 90 zł, a Tomek 60 zł.  Średnia miesięcznych wydatków na ubrania dla tych trzech  osób wynosi 100 zł, ale przecież żadna z nich nie przeznacza takiej kwoty na ubrania.

Wyliczenie samej średniej  arytmetycznej może być mylące, zawsze warto obliczyć też odchylenie standardowe

Wyliczenie więc samej średniej może być mylące i tu z pomocą przychodzi właśnie taka statystyka jak odchylenie standardowe, która pokaże nam jak bardzo zebrane przez nas wyniki dotyczące miesięcznych wydatków na ubrania są rozrzucone wokół średniej. Jak obliczyć odchylenie standardowe?

W pierwszej kolejności odejmujemy średnią od poszczególnych wyników (X- M), czyli w naszym przypadku: 150 zł – 100 zł, 90 zł – 100 zł, 60zł – 100 zł. Wyniki jakie otrzymujemy to: 50 zł,  – 10 zł, – 40 zł. Teraz każdy z tych wyników podnosimy do kwadratu ([X- M]2). Efektem owej operacji są następujące wartości: 2500 zł2, 100 zł2, 1600 zł2. Kolejnym krokiem jest dodanie do siebie owych kwadratów różnic (czyli odchyleń od średniej). Suma  wynosi 4200 zł2. Opisane do tej pory kroki wyliczania odchylenia standardowego przedstawia poniższa tabela.

Obliczenie odchylenia standardowego krok po kroku

Teraz wyliczoną sumę (4200 zł2) musimy podzielić przez liczbę wyników pomniejszoną o jeden (n-1), czyli w naszym przypadku przez dwa : 4200zł2/ 2. Otrzymany wynik to 2100 zł2.

Obliczając odchylenie standardowe musimy sumę kwadratów odchyleń wyników od średniej podzielić przez liczbę wyników minus jeden

Ostatnim działaniem jakie musimy przeprowadzić jest spierwiastkowanie otrzymanego wyniku: √2100 zł2. Wartość odchylenia standardowego w omawianym przykładzie wynosi: 45 zł 82 gr.

Odchylenie standardowe to pierwiastek kwadratowy z wariancjiCo to oznacza? Średnio, miesięcznie studenci na ubrania przeznaczają 100 zł, ale wydatki poszczególnych studentów odchylają się od tej wartości średnio o 45 zł 82 gr, czyli studenci średnio wydają na odzież 100 zł, ale większość z nich wydaje 100 zł +/- 45zł 82 gr. Dla nas jako producentów odzieży markowej oznacza to, że w swoje kolekcji powinniśmy mieć zarówno modele ubrań powyżej 100 zł, jak i takie, których cena oscyluje wokół 55 zł.

 Zobacz jak obliczyć ODCHYLENIE STANDARDOWE W EXCELU

Mediana

Mediana (inaczej wartość środkowa, przeciętna, drugi kwartyl) jest to wartość dzieląca uszeregowany zbiór danych „na pół”. Jako jedna z głównych miar tendencji centralnej, obok średniej arytmetycznej i dominanty, pozwala nam opisać miejsce największej koncentracji wyników. Poniżej i powyżej mediany znajduje się 50% wyników danego zbioru. Symbol mediany to Me. Tyle teoria. A jak wyznaczyć medianę w praktyce? Jaki jest wzór na medianę? Najlepiej będzie jeśli posłużymy się konkretnym przykładem i w ten sposób odkryjemy wszystkie tajniki statystyki jaką jest mediana (zobacz jak policzyć medianę w excelu).

Jesteśmy właścicielami sklepu z elegancką odzieżą. W minionym miesiącu sprzedaliśmy 13 ubrań ze swojej wiosennej kolekcji. Udało nam się sprzedać zarówno tańsze, jak i droższe modele. 13 sprzedanych ubrań było w następujących cenach:, 50 zł, 50 zł, 75 zł, 85 zł, 85 zł, 90 zł, 90 zł, 120 zł, 250 zł, 250 zł, 350 zł, 50 zł, 75 zł. Chcielibyśmy ustalić przeciętną cenę sprzedanej przez nas odzieży z wiosennej kolekcji, czyli de facto ustalić wartość mediany. Jak to zrobić?

Zbiór danych do obliczenia mediany - nieuszeregowany

Po pierwsze musimy uszeregować wartości naszego zbioru od najmniejszych do największych albo od największych do najmniejszych. Czyli przed przystąpieniem do wyliczenia statystyki mediany, nasz zbiór powinien wyglądać np. tak: 50 zł, 50 zł, 50 zł, 75zł,  75 zł, 85 zł,85 zł, 90 zł, 90 zł, 120 zł, 250 zł, 250 zł, 350 zł.

Przed obliczeniem mediany musimy uszeregować wartości zbioru od najmniejszych do największych albo od największych do najmniejszych

Zbiór uszeregowany. Teraz musimy znaleźć ten egzemplarz odzieży, który będzie znajdował się dokładnie w środku naszego zbioru. Tu z pomocą przychodzi nam wzór na pozycję mediany: pozMe =(n+1)/ 2, gdzie n to liczba elementów w naszym zbiorze, czyli w naszym przypadku 13. Wykonujemy odpowiednie obliczenia: (13+1)/ 2 = 7.  Otrzymany wynik wskazuje na element zbioru, dla którego musimy odczytać daną wartość, która de facto będzie wartością mediany. W naszym zbiorze będzie to ubranie sprzedane za 85 zł: Me = 85 zł. I jeszcze interpretacja otrzymanego wyniku: w kolekcji wiosennej 50% sprzedanych modeli to ubrania w cenie 85 zł lub mniej, a za 50% sprzedanych ubrań zapłacono 85 zł lub więcej.

Aby obliczyć medianę należy do liczby elementów zbioru dodać "1" i podzielić przez "2"

A co jeśli udałoby nam się sprzedać jeszcze jeden model z kolekcji wiosennej, w cenie 86 zł. Wtedy nasz uszeregowany zbiór wyglądałby tak:  50 zł, 50 zł, 50 zł, 75zł,  75 zł, 85 zł,85 zł, 86 zł,  90 zł, 90 zł, 120 zł, 250 zł, 250 zł, 350 zł. Wyliczmy dla niego wzór na pozycję mediany, pamiętając, iż teraz mamy do czynienia z 14 – elementowym zbiorem: (14+1)/ 2 = 7,5. Otrzymany wynik wskazuje, że powinniśmy odnaleźć  egzemplarz odzieży nr 7 i pół. Oczywiście w naszym zbiorze nie ma takiego egzemplarza. Co w takim przypadku? Musimy znaleźć zarówno 7, jak i 8 element i wyliczyć dla nich średnią arytmetyczną, czyli sumować wartości elementu nr 7 i 8, a następnie podzielić przez dwa. W naszym przypadku 7 element zbioru to ubranie sprzedane za  85 zł, ubranie nr 8 zaś to ubranie w cenie 86 zł: (85zł +86 zł)/ 2 = 85 zł 50 gr. . Wartość mediany wynosi: Me = 85 zł i 50 gr. Co to oznacza? Z kolekcji wiosennej 50% modeli zostało sprzedanych za 85 zł 50 gr. lub mniej, a 50% osiągnęło cenę 85zł 50 gr. lub więcej.

Jeśli wartość pozycji mediany wskazuje na dwa egzemplarze zbioru, należy policzyć dla nich średnią arytmetyczną

I na koniec jeszcze jedna ważna uwaga. Mediana to miara tendencji centralnej, którą wyznaczymy tylko dla zmiennych porządkowych lub ilościowych. Mediany nie wyznaczymy dla danych nominalnych takich jak np. kolor sprzedanych przez nas ubrań. Zbioru: czerwony, niebieski, zielony, pomarańczowy itd.  nie uszeregujemy bowiem od wartości najmniejszej do największej, albo od najmniejszej do największej.

Zobacz jak wyliczyć MEDIANĘ W EXCELU