Boxplots leicht gemacht!

boxplot-schuljahr

Wilde Zeichnungen von "Schachteln", auch Boxplots genannt, begegnen dir meist bereits zu Beginn deiner Statistik-Karriere. Sie gehören in die bunte Welt der deskriptiven, beschreibenden Statistik, in der es darum geht, die Informationen, die in einem Datensatz enthalten sind, auf einige wenige Kennwerte zu reduzieren, also sozusagen die Essenz herauszuarbeiten.

Nun kann man das zum einen rechnerisch machen, z. B. mit dem Mittelwert, Varianz, Median etc., aber zudem auch grafisch. Und zu diesen grafischen Darstellungen der enthaltenen Informationen gehört der Boxplot, mit dem sich praktischerweise gleichzeitig sowohl die zentrale Tendenz eines Datensatzes als auch die Streuung darstellen lässt.

Wissenswertes rund um den Boxplot

Wie bereits eingangs erwähnt, kannst du mit dem Boxplot in einer einzigen Grafik die zentrale Tendenz sowie die Streuung darstellen. Die Streuung sagt dir, wie weit die Daten um den Zentralwert herum verteilt sind bzw. wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden. Der verwendete zentrale Wert ist hier jedoch nicht der Mittelwert, sondern der Median, also derjenige Wert, der einen nach Größe geordneten Datensatz in zwei Hälften unterteilt: in 50% kleinere und 50% größere Werte.

Ein weiterer großer Vorteil des Boxplots ist, dass man sofort erkennen kann, ob es Ausreißer in einem Datensatz gibt, also Werte, die weit ab von den übrigen Werten liegen. Da der Median, der dem Boxplot zugrunde liegt, deutlich robuster gegenüber Ausreißern und Extremwerten als der Mittelwert ist, können diese mit  dem Boxplot gut visualisiert werden. Häufig stellt sich dann die Frage, wie mit diesen Werten zu verfahren sei, d. h. ob sie im Datensatz belassen oder möglicherweise entfernt werden sollen – Letzteres jedoch nur, wenn es triftige Gründe dafür gibt, wie z. B. dass eine Versuchsperson nicht wirklich mitmachen wollte und sich nicht anstrengte. Ein weiterer Grund wären Eingabefehler.

Die Voraussetzung, um einen Boxplot berechnen zu können, ist eine Variable, die mindestens Ordinalskalen-Niveau hat. Das bedeutet, dass bei Merkmalen wie Geschlecht, Nationalität oder Farbpräferenz kein Boxplot berechnet werden kann (Infos zu den Skalenniveaus findest du hier).

Was hat es mit der Box auf sich? Die Box, die der Name Boxplot beinhaltet, zeigt an, in welchem Bereich sich die mittleren 50% aller Werte befinden. Das untere Ende der Box ist derjenige Punkt in den Daten, an dem sich die unteren 25% angesammelt haben (25%-Perzentil). Der Strich in der Mitte ist der Median (bis hierher haben sich 50% angesammelt, das 50%-Perzentil) und das Ende der Box kennzeichnet den Punkt, an dem sich 75% aller Werte angesammelt haben (75%-Perzentil).

Das untere Ende der Box wird als Q1 bezeichnet, der Median als Q2 und das obere Ende als Q3. Die Länge der Box bzw. Differenz zwischen Q3 und Q1 wird Interquartilsabstand oder IQR genannt (aus dem Englischen: interquartile range).

Übrigens wird der Boxplot manchmal auch als Box-Whisker-Diagramm bezeichnet.

icon-logo-statistik

Berechnung des Boxplots

Überblick:

1. Berechne den Median, der den Datensatz in zwei Hälften unterteilt

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

icon-logo-statistik

Boxplot – das Video

icon-logo-statistik

Und nun die Ausführliche Schriftliche Anleitung:

Unser Beispiel: Eine Psychologin interessiert sich für die Reaktionszeit von Kindern zwischen 6 und 12 Jahren. Diese sollen im Labor sofort die Enter-Taste am Computer drücken, sobald ein rosa-flauschiges Glitzer-Einhorn erscheint. Die Ergebnisse der Versuchspersonen sind in Millisekunden angegeben.

1. Berechne den Median

Ordne als erstes die Zahlen nach Größe.

Nun gibt es zwei Varianten: gerade und ungerade Anzahl an Werten im Datensatz.

Bei einer geraden Anzahl an Werten musst du nach dem Ordnen die beiden genau in der Mitte des Datensatzes liegenden Werte mitteln, also einen neuen Wert berechnen, der so gar nicht im Datensatz vorkommt.

Hier sind die Ergebnisse unserer Probanden:

5    7    9    12    13    13    14    30

Wir haben nun acht Werte. Die beiden Werte, die in der Mitte liegen (an Position 4 und 5), werden gemittelt, d. h. zusammengezählt und dann durch 2 geteilt, was 12.5 ergibt. 12.5 ist hier also der Median.

Guckst du: 

median-gerader-datensatz

Bei einer ungeraden Anzahl an Werten ist der Median direkt im Datensatz enthalten und derjenige Wert, der genau in der Mitte des nach Größe geordneten Datensatzes liegt:

Beispiel von oben:

5   7   9   12   13   13    14   16  30

median-ungerader-datensatz

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

Jetzt berechnest du von den beiden durch den Median entstehenden Datenhälften jeweils wiederum den Median.

Hier sind sich die Statistiker nicht ganz einig, wie bei einem Datensatz mit ungerader Anzahl von Werten zu verfahren ist: sollte man den Median jeweils zu den beiden Datensatz-Hälften dazunehmen oder rauslassen?

Beides ist legitim – richte dich einfach danach, was an deiner Hochschule gelehrt wird. Die beiden Varianten sehen so aus:

boxplot-ungerader-datensatz
ungerader-datensatz-boxplot

Beim obigen Datensatz mit einer geraden Anzahl von Werten:  

5     7     9    12    13     13    14    30

Hier wären die Mediane der beiden Datensatz-Hälften Folgende:

5   7   9   12    – Median bzw. Q1 ist 8  

13   13   14   30    – Median bzw. Q3 ist 13.5

boxplot-quartile-gerader-datensatz

Wir machen nun mit diesem geraden Datensatz weiter und können jetzt IQR oder die Länge der Box berechnen. Dazu ziehen wir von Q3 das Q1 ab:

13.5 (Q3) – 8 (Q1) = 5.5 (IQR)


3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

Bei unserem Beispiel bietet sich eine Skalierung von 0 bis knapp über 30 an. Zeichne nun Q1 (8), den Median (12.5)  sowie Q3 (13.5) ein und verbinde das ganze mit einer hübschen Box. Ob du die Box liegend oder aufrecht malst, ist vollkommen egal. Das Ganze sieht dann so aus:

box-boxplot


4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

Die sog. "Whisker" (aus dem Englischen: whisker = Schnurrhaare) sind die Striche, die aus der Box auf beiden Seiten (meist) herausragen (es gibt auch Boxplots, bei denen nur einer oder keiner der beiden Whisker herausragt). Grundsätzlich gilt: Die Whisker werden einmal am unteren Ende der Box nach unten und einmal am oberen Ende der Box nach oben eingetragen (oder nach links und rechts – je nachdem, ob du den Boxplot aufrecht oder liegend zeichnest).

Berechnung:

Unser ​​IQR ist 5.5. Wenn wir das mit 1.5 multiplizieren, ergibt das

5.5 x 1.5 = 8.25

Warum man die Länge der Box nun gerade mit 1.5 multiplizieren muss, könnte man, so man wollte, mühsam mathematisch herleiten – aber das wollen wir definitiv nicht! Daher nimm' das bitte einfach als gegeben hin und sieh' es als eines der vielen Mysterien in der Welt der Statistik an...

Achtung: IQR mal 1.5 ist die POTENZIELLE, d.h. grundsätzlich mögliche Maximallänge der Whisker und meist nicht die tatsächliche Länge! 

POTENZIELL könnten die Whisker in unserem Beispiel so aussehen:

Das untere Ende der Box ist 8. Von dort aus 8.25 nach unten wären:  8 – 8.25 = -0.25

Das obere Ende der Box ist 13.5. Von dort aus 8.25 nach oben wären:  13.5 + 8.25 = 21.75

D. h., die Whisker würden POTENZIELL im unteren Bereich der Skala bis -0.25 gehen und im oberen Bereich bis 21.75, hier als gestrichelte grüne Linien gezeichnet:

whisker-potenziell
icon-logo-statistik

GUT zu wissen:

Die whisker werden nur bis zu denjenigen datenPunkten gezeichnet, die sich noch innerhalb der potenziellen maximalen Whiskerlänge befinden!

Werte, die außerhalb dieser potenziellen Länge liegen, werden als Ausreißer oder Extremwerte eingezeichnet!

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

Das wären in unserem Beispiel mit    5     7     9    12    13     13    14    30   die 5 im unteren und die 14 im oberen Bereich. Guckst du:

boxplot

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

Ausreißer sind Werte, die etwas außerhalb der potenziellen maximalen Whiskerlänge liegen. Bei SPSS werden diese gewöhnlich mit Kringeln eingezeichnet.

Extremwerte sind Werte, die mehr als drei Interquartilsbereiche außerhalb der Box und somit sehr weit ab von allen anderen liegen. Diese werden gewöhnlich mit Sternchen gekennzeichnet.

In unserem Beispiel gibt es einen Ausreißer von 30 Millisekunden. Diese Versuchsperson brauchte also besonders lange, bis sie nach Auftauchen des rosa-flauschigen Glitzer-Einhorns auf die Enter-Taste drückte. Sind diese 30 Millisekunden nun als Extremwert zu bezeichnen? Berechnen wir das doch mal:

Der Wert von 30 Millisekunden wäre ein Extremwert, wenn er 3 IQRs vom Ende der Box entfernt läge, also 3 mal 5.5 (IQR) = 16.5 Millisekunden vom oberen Ende der Box entfernt.

Die Box endet bei 14. Zählen wir nun 16.5 dazu, erhalten wir 30.5. Ab hier würde der Bereich der Extremwerte beginnen. Unser Wert 30 liegt knapp darunter, d. h. es ließe sich streiten, ob das noch als Ausreißer oder schon als Extremwert anzusehen ist. Technisch gesehen ist es NOCH ein Ausreißer, also malen wir ihn mit einem Kringel ein und haben jetzt endlich unseren fertigen Boxplot!

boxplot-mit-ausreisser
chamaeleon-bambus-spss
icon-logo-statistik

Interpretation von Boxplots

  • Du kannst an der Lage des Medians innerhalb der Box sowie den Längen der Whisker erkennen, ob die Werte des Datensatzes symmetrisch oder aber ungleich verteilt sind:
  • Bei symmetrischen Verteilungen liegt der Strich genau in der Mitte der Box.
  • Bei rechtssteilen Verteilungen ist der Strich nach oben oder rechts hin verschoben und bei linkssteilen nach unten bzw. links: viele Werte drängen sich bei diesen Verteilungen in einem Bereich, wohingegen der Rest weiter verteilt ist. 
  • Das lässt sich an unserem Boxplot mit den Werten   5     7     9    12    13     13    14   30  schön erkennen: der Median ist nicht in der Mitte der Box, sondern nach oben bzw. rechts verschoben. Da zwischen dem Median und dem oberen (Q3) bzw. unteren Ende der Box (Q1) jeweils 25% aller Werte liegen, bedeutet ein nach rechts verschobener Strich hier, dass zwischen dem Median von 12.5 und dem Q3 von 13.5 ca. 25% aller Werte liegen (recht gedrängt), wohingegen weitere 25% aller Werte zwischen 8 (Q1) und 12.5 (Median) liegen, also weiter verteilt. Dies ist somit ein Beispiel für eine rechtssteile Verteilung.
  • Die Positionierung der Box auf der Achse zeigt dir, in welchem Bereich deiner Skalierung die mittleren 50% aller Werte liegen. Bei unserem Datensatz wäre das zwischen 8 und 13.5. Somit wiesen 50% aller Kinder Reaktionszeiten auf, die zwischen 8 und 13.5 Millisekunden lagen.
  • Ein breiter Interquartilsbereich, also eine breite Box, zeigt an, dass die Streuung groß ist und sich die Versuchspersonen im untersuchten Merkmal sehr unterscheiden. Ein kleiner IQR bedeutet hingegen, dass sich alle in ihrer Merkmalsausprägung recht ähnlich sind. Welcher Fall in unserem Beispiel zutrifft, müsste anhand der Forschungsliteratur überprüft werden: welche Werte sind bei Reaktionszeiten bei Kindern typisch? Daher lässt sich nicht zuletzt aufgrund des sehr kleinen Datensatzes (noch) keine Aussage treffen.
  • Die Länge der Whisker ist ebenfalls relevant: lange Whisker deuten auf eine breitere Verteilung hin, kurze auf eine schmale bzw. spitzgipflige.
  • Der kurze rechte Whisker in unserem Beispiel unterstreicht noch einmal die Aussage einer rechtssteilen Verteilung – hier laufen die Werte nicht gemächlich nach rechts bzw. oben hin aus, sondern fallen gewissermaßen jäh ab (und es gibt einen Ausreißer mit 30 Millisekunden). Auf der linken, unteren Seite ist der Whisker hingegen länger: die Werte ziehen sich also weiter in den unteren Bereich hinein.
chamaeleon-bambus-spss
icon-logo-statistik

Boxplot mit SPSS

Um den Boxplot bei SPSS zu erstellen, gehe nach Aufrufen eines von dir ausgewählten oder erstellten Datensatzes auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du dann die interessierende Variable aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". Der Boxplot wird automatisch im Zuge der gesamten Auswertung der Explorativen Datenanalyse generiert, d. h. du musst ein wenig nach unten scrollen, bis er unterhalb des Stamm-Blatt-Diagramms erscheint.

Ein weiterer Weg, um den Boxplot aufzurufen, ist über "Grafik", "Alte Dialogfelder", "Boxplot".

Und so sieht der von SPSS erstellt Boxplot für unseren Datensatz aus. SPSS gibt übrigens praktischerweise bei den Ausreißern und Extremwerten immer die Nummer der dazugehörigen Versuchsperson an, was hier das Kind Nr. 8 war.

boxplot-spss
chamaeleon-bambus-spss
icon-logo-statistik
Probleme beim Lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

icon-logo-statistik

Geschafft!

Na bitte, geht doch! Wenn du bis hierher gelesen hast – Gratulation! 

Und jetzt wäre es vielleicht ganz gut, im Sinne von "Turning insight into action" das Ganze gleich mal mit einer anderen Variablen in diesem oder einem anderen Datensatz anzuwenden...  

Aber vorher ist definitiv Zeit für eine wohlverdiente Belohnung, um wieder Motivation zu tanken und das Lernen von Statistik etwas angenehmer zu gestalten! 

peanut-butter-cups
  • Lea sagt:

    Vielen Dank, das war sehr hilfreich :)!

  • >