Tagoror  

Encyclopedie




Mediaan

De mediaan van een statistische verdeling is de 50ste percentiel van die verdeling. Dat wil zeggen dat het een punt (of lijn, vlak enz.) is dat de verdeling precies in twee gelijke helften snijdt.

Steefproef mediaan

De bovenstaande definitie betreft de populatie mediaan. Evenals dat het geval is bij het gemiddelde is het in de praktijk vaak een ondoenlijke zaak de populatie mediaan te bepalen omdat de populatie te groot (of zelf oneindig groot) is. Het is daarom nodig om de mediaan uit een steekproef van beperkte omvang n te schatten. Dit wordt gedaan door de voorhanden gegevens naar grootte te rangschikken en dan ofwel het middelste getal te nemen (als n=oneven) ofwel het gemiddelde van de twee middelste gegevens te bepalen (voor n= even).

Een voorbeeld:

-2.1 -1.6 0.1 0.2 0.5 0.7 0.7 0.8 0.8 0.9 1.1 1.2 6.5

Omdat n=13 is oneven is het middelste getal 0.7 de mediaan van de steefproef (en de beste schatting die we hebben voor de mediaan van de hele populatie).

-2.1 -1.6 0.1 0.2 0.5 0.7 0.7 0.8 0.8 0.9 1.1 1.2

Ook in dit geval is de median 0.7, omdat het gemiddelde van beide getallen in het midden 0.7 oplevert.

Eigenschappen van de mediaan

Voor alle symmetrische verdelingen f(x) die een populatie gemiddelde μ bezitten geldt dat de populatie mediaan ook gelijk is aan μ. Voor asymetrische 'scheve' verdelingen is dat anders maar het geldt dus wel voor de normale verdeling die een bijzonder grote rol speelt in de statistiek. Dat wil echter niet zeggen dat de steekproef mediaan en het steekproef gemiddelde ook aan elkaar gelijk zijn. Zij zijn twee verschillende schattingen van dezelfde grootheid. Beide schattingen hebben hun sterke en zwakke kanten.

Het steekproef gemiddelde is superieur wanneer het erom gaat tot het uiterste gebruik te maken van de voorhanden informatie in de steekproef. Dit noemt men efficiëntie. Het steekproefgemiddelde onderdrukt de willekeurige fout in de steekproef beter dan de mediaan en is dus een nauwkeuriger schatting van μ. Daar staat echter iets tegenover. Laten we bijvoorbeeld de bovenstaande getallen nemen, maar een typfout introduceren.

-2.1 -1.6 0.1 0.2 0.5 0.7 0.7 0.8 0.8 0.9 1.1 1.2 650

Voor het gemiddelde heeft de fout in het laatste getal 650 desastreuze gevolgen, maar de mediaan blijft onveranderd. Medianen zijn dus robuust in de aanwezigheid van 'uitbijters'. In de praktijk is dat zeer waardevol omdat bij grote steekproeven de kans op een uitbijter niet te verwaarlozen is.

Robuuste statistiek

Hoewel de mediaan al erg lang bekend is zijn de robuuste eigenschappen lange tijd niet of nauwelijks volledig uitgebuit. Vooral door het werk van een Belgische statisticus (Rousseeuw) is daar sinds de jaren '80 verandering in gekomen. Het probleem was niet dat er geen robuuste schatting voor μ bestond, maar dat een robuuste schatting voor de spreiding (standaarddeviatie) σ ontbrak. In de op kleinste kwadraten gebaseerde schattingen wordt μ geschat door het steekproefgemiddelde en σ door de steekproefspreiding (standdaarddeviatie van de steekproef) s. De laatste waarde is echter nog minder robuust dan het gemiddelde, zoals een kleine berekening met de bovenstaande waarden goed laat zien.

Rousseeuw stelde voor de MAD: mediane absolute deviatie (van de mediaan) daarvoor in de plaats te stellen.

Deze wordt berekend door eerst de mediaan van alle getallen af te trekken

-2.8 -2.3 -0.6 -0.5 -0.2 0 0 0.1 0.1 0.2 0.4 0.5 649.3

Daarna nemen we de absolute waarde en rangschikken opnieuw

2.8 2.3 0.8 0.5 0.2 0 0 0.1 0.1 0.2 0.4 0.5 649.3 0 0 0.1 0.1 0.2 0.2 0.4 0.5 0.5 0.6 2.3 2.8 649.3

De mediaan hiervan is 0.4 =MAD.

Een goede (en robuuste!) schatting van :mu; is 1.483 MAD.

(De factor 1.483 heeft te maken met het feit dat de mediaan van een absolute (half-)normale verdeling overeenkomt met de 75ste percentiel en σ met de 84ste percentiel van een normaal verdeling)

Men behulp van mediaan en MAD is het mogelijk de uitbijter te verwijderen door zijn deviatie (649.3) te vergelijken met de geschatte μ (0.6). Omdat dit een factor 100 scheelt is het uiterst onwaarschijnlijk dat dit punt bij de onderliggende verdeling hoort.




Tagoror Networks: Spain  |  Philippines  |  Mexico

Los documentos de esta enciclopedia on line se publican bajo la Licencia de Documentación Libre GNU

De tekst is beschikbaar onder de licentie Creative Commons Naamsvermelding/Gelijk delen, er kunnen aanvullende voorwaarden van toepassing zijn.