Wilde Zeichnungen von "Schachteln", auch Boxplots genannt, begegnen dir meist bereits zu Beginn deiner Statistik-Karriere. Sie gehören in die bunte Welt der deskriptiven, beschreibenden Statistik, in der es darum geht, die Informationen, die in einem Datensatz enthalten sind, auf einige wenige Kennwerte zu reduzieren, also sozusagen die Essenz herauszuarbeiten.
Nun kann man das zum einen rechnerisch machen, z. B. mit dem Mittelwert, Varianz, Median etc., aber zudem auch grafisch. Und zu diesen grafischen Darstellungen der enthaltenen Informationen gehört der Boxplot, mit dem sich praktischerweise gleichzeitig sowohl die zentrale Tendenz eines Datensatzes als auch die Streuung darstellen lässt.
Wissenswertes rund um den Boxplot
Wie bereits eingangs erwähnt, kannst du mit dem Boxplot in einer einzigen Grafik die zentrale Tendenz sowie die Streuung darstellen. Die Streuung sagt dir, wie weit die Daten um den Zentralwert herum verteilt sind bzw. wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden. Der verwendete zentrale Wert ist hier jedoch nicht der Mittelwert, sondern der Median, also derjenige Wert, der einen nach Größe geordneten Datensatz in zwei Hälften unterteilt: in 50% kleinere und 50% größere Werte.
Zudem siehst du auf einen Blick, wie die Werte in deinem Datensatz verteilt sind: handelt es sich um eine symmetrische, rechts- oder linkssteile Verteilung?
Ein weiterer großer Vorteil des Boxplots ist, dass man sofort erkennen kann, ob es Ausreißer und Extremwerte in einem Datensatz gibt, also Werte, die weit ab von den übrigen Werten liegen.
Die Voraussetzung, um einen Boxplot berechnen zu können, ist eine Variable, die mindestens Ordinalskalen-Niveau hat. Das bedeutet, dass bei Merkmalen wie Geschlecht, Nationalität oder Farbpräferenz kein Boxplot berechnet werden kann (Infos zu den Skalenniveaus findest du hier).
Und was hat es mit der Box auf sich?
Die Box, die der Name Boxplot beinhaltet, zeigt an, in welchem Bereich sich die mittleren 50% aller Werte befinden. Das untere Ende der Box ist derjenige Punkt in den Daten, an dem sich die unteren 25% angesammelt haben (0.25-Quantil oder Q1). Der Strich in der Mitte ist der Median (bis hierher haben sich 50% angesammelt, das 0.5-Quantil oder Q2) und das Ende der Box kennzeichnet den Punkt, an dem sich 75% aller Werte angesammelt haben (0.75-Quantil oder Q3).
Das untere Ende der Box ist also Q1, der Strich in der Box Q2 und das obere Ende Q3. Die Länge der Box bzw. die Differenz zwischen Q3 und Q1 wird Interquartilsabstand IQA oder IQR genannt (aus dem Englischen: interquartile range).
Übrigens wird der Boxplot manchmal auch als Box-Whisker-Diagramm oder Kastengrafik bezeichnet.
Oder auch als 5-Punkte-Zusammenfassung, denn er enthält das Minimum (kleinster Wert), Q1, Q2, Q3 und das Maximum (größter Wert).
Berechnung des Boxplots
Überblick:
1. Berechne den Median, der den Datensatz in zwei Hälften unterteilt
2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest
3. Überleg dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein
4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst
5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!
6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen
nun die Ausführliche Schriftliche Anleitung
Unser Beispiel: Eine Psychologin interessiert sich für die Reaktionszeit von Kindern zwischen 6 und 12 Jahren.
Diese sollen im Labor sofort die Enter-Taste am Computer drücken, sobald ein rosa-flauschiges Glitzer-Einhorn erscheint.
Die Ergebnisse der Versuchspersonen sind in Millisekunden angegeben.
1. Berechne den Median
Ordne als erstes die Zahlen nach Größe.
Nun gibt es zwei Varianten: gerade und ungerade Anzahl an Werten im Datensatz.
Bei einer geraden Anzahl an Werten musst du nach dem Ordnen die beiden genau in der Mitte des Datensatzes liegenden Werte mitteln, also einen neuen Wert berechnen, der so gar nicht im Datensatz vorkommt.
Hier sind die Ergebnisse unserer Probanden:
5 7 9 12 13 13 14 30
Wir haben nun acht Werte. Die beiden Werte, die in der Mitte liegen (an Position 4 und 5), werden gemittelt, d. h. zusammengezählt und dann durch 2 geteilt, was 12.5 ergibt. 12.5 ist hier also der Median.
Guckst du:
Bei einer ungeraden Anzahl an Werten ist der Median direkt im Datensatz enthalten und derjenige Wert, der genau in der Mitte des nach Größe geordneten Datensatzes liegt:
Beispiel von oben:
5 7 9 12 13 13 14 16 30
2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest
Jetzt berechnest du von den beiden durch den Median entstehenden Datenhälften jeweils wiederum den Median.
Hier sind sich die Statistiker nicht ganz einig, wie bei einem Datensatz mit ungerader Anzahl von Werten zu verfahren ist: sollte man den Median jeweils zu den beiden Datensatz-Hälften dazunehmen oder rauslassen?
Beides ist legitim – richte dich einfach danach, was an deiner Hochschule gelehrt wird. Die beiden Varianten sehen so aus:
Beim obigen Datensatz mit einer geraden Anzahl von Werten:
5 7 9 12 13 13 14 30
Hier wären die Mediane der beiden Datensatz-Hälften Folgende:
5 7 9 12 – Median bzw. Q1 ist 8
13 13 14 30 – Median bzw. Q3 ist 13.5
Wir machen nun mit diesem geraden Datensatz weiter und können jetzt IQR oder die Länge der Box berechnen.
Dazu ziehen wir von Q3 das Q1 ab:
13.5 (Q3) – 8 (Q1) = 5.5 (IQR)
3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein
Bei unserem Beispiel bietet sich eine Skalierung von 0 bis knapp über 30 an. Zeichne nun Q1 (8), den Median (12.5) sowie Q3 (13.5) ein und verbinde das ganze mit einer hübschen Box. Ob du die Box liegend oder aufrecht malst, ist vollkommen egal. Das Ganze sieht dann so aus:
4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst
Die sog. "Whisker" (aus dem Englischen: whisker = Schnurrhaare) sind die Striche, die aus der Box auf beiden Seiten (meist) herausragen (es gibt auch Boxplots, bei denen nur einer oder keiner der beiden Whisker herausragt). Grundsätzlich gilt: Die Whisker werden einmal am unteren Ende der Box nach unten und einmal am oberen Ende der Box nach oben eingetragen (oder nach links und rechts – je nachdem, ob du den Boxplot aufrecht oder liegend zeichnest).
Berechnung:
Unser IQR ist 5.5. Wenn wir das mit 1.5 multiplizieren, ergibt das
5.5 x 1.5 = 8.25
Warum man die Länge der Box nun gerade mit 1.5 multiplizieren muss, könnte man, so man wollte, mühsam mathematisch herleiten – aber das wollen wir definitiv nicht! Daher nimm' das bitte einfach als gegeben hin und sieh' es als eines der vielen Mysterien in der Welt der Statistik an ...
Achtung: IQR mal 1.5 ist die POTENZIELLE, d.h. grundsätzlich mögliche Maximallänge der Whisker und meist nicht die tatsächliche Länge!
POTENZIELL könnten die Whisker in unserem Beispiel so aussehen:
Das untere Ende der Box ist 8. Von dort aus 8.25 nach unten wären: 8 – 8.25 = -0.25
Das obere Ende der Box ist 13.5. Von dort aus 8.25 nach oben wären: 13.5 + 8.25 = 21.75
D. h., die Whisker würden POTENZIELL im unteren Bereich der Skala bis -0.25 gehen und im oberen Bereich bis 21.75, hier als gestrichelte grüne Linien gezeichnet:
für hinter die löffelchen:
Die whisker werden nur bis zu denjenigen datenPunkten gezeichnet, die sich noch innerhalb der potenziellen maximalen Whiskerlänge befinden!
Werte, die außerhalb dieser potenziellen Länge liegen, werden als Ausreißer oder Extremwerte eingezeichnet!
5. Zeichne die Whisker ein – aber Achtung:
Die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!
Das wären in unserem Beispiel mit 5 7 9 12 13 13 14 30 die 5 im unteren und die 14 im oberen Bereich. Guckst du:
6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen
Ausreißer sind Werte, die etwas außerhalb der potenziellen maximalen Whiskerlänge liegen. Bei SPSS werden diese gewöhnlich mit Kringeln eingezeichnet.
Extremwerte sind Werte, die mehr als drei Interquartilsbereiche außerhalb der Box und somit sehr weit ab von allen anderen liegen. Diese werden gewöhnlich mit Sternchen gekennzeichnet.
In unserem Beispiel gibt es einen Ausreißer von 30 Millisekunden. Diese Versuchsperson brauchte also besonders lange, bis sie nach Auftauchen des rosa-flauschigen Glitzer-Einhorns auf die Enter-Taste drückte. Sind diese 30 Millisekunden nun als Extremwert zu bezeichnen? Berechnen wir das doch mal:
Der Wert von 30 Millisekunden wäre ein Extremwert, wenn er 3 IQRs vom Ende der Box entfernt läge, also 3 mal 5.5 (IQR) = 16.5 Millisekunden vom oberen Ende der Box entfernt.
Die Box endet bei 14. Zählen wir nun 16.5 dazu, erhalten wir 30.5. Ab hier würde der Bereich der Extremwerte beginnen. Unser Wert 30 liegt knapp darunter, d. h. es ließe sich streiten, ob das noch als Ausreißer oder schon als Extremwert anzusehen ist. Technisch gesehen ist es NOCH ein Ausreißer, also malen wir ihn mit einem Kringel ein und haben jetzt endlich unseren fertigen Boxplot!
Brauchst du Hilfe beim Lernen von statistik?
Dann komm zu statistik-gym,
dem Online-Fitnessstudio für Statistik,
das dich fit für die Prüfung macht!
Eine Mitgliedschaft wie im Fitness-Studio oder bei Streaming-Anbietern, nur eben für Statistik im Bachelor,
die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!
Darin bekommst du:
Und dann macht Statistik vielleicht sogar Spaß!
Klingt gut? Dann klick hier:
Interpretation von Boxplots
Boxplot mit SPSS
Um den Boxplot bei SPSS zu erstellen, gehe nach Aufrufen eines von dir ausgewählten oder erstellten Datensatzes auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse".
Im sich öffnenden Fenster wählst du dann die interessierende Variable aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK".
Der Boxplot wird automatisch im Zuge der gesamten Auswertung der Explorativen Datenanalyse generiert, d. h. du musst ein wenig nach unten scrollen, bis er unterhalb des Stamm-Blatt-Diagramms erscheint.
Ein weiterer Weg, um den Boxplot aufzurufen, ist über "Grafik", "Alte Dialogfelder", "Boxplot".
Und so sieht der von SPSS erstellt Boxplot für unseren Datensatz aus. SPSS gibt übrigens praktischerweise bei den Ausreißern und Extremwerten immer die Nummer der dazugehörigen Versuchsperson an, was hier das Kind Nr. 8 war.
Geschafft!
Na bitte, geht doch! Wenn du bis hierher gelesen hast – Gratulation!
Und jetzt wäre es vielleicht ganz gut, das Ganze gleich mal mit einer anderen Variablen in diesem oder einem anderen Datensatz anzuwenden...
Aber vorher ist definitiv Zeit für eine wohlverdiente Belohnung, um wieder Motivation zu tanken und das Lernen von Statistik etwas angenehmer zu gestalten!
QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):
Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Springer.
Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. Pearson.
Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. SAGE.
Vielen Dank, das war sehr hilfreich :)!
Vielen Dank, Lea! Das freut mich sehr!
Vielen Dank, das hat mir sehr geholfen!
Sehr gerne, liebe Sarah! Freut mich.
Liebe Grüße!
Thank You for this very understanding explanation. Did`nt find a better one.
Sehr gerne!
Liebe Grüße