Category Archives for Deskriptive Statistik meistern

z-Transformation einfach erklärt!

z-transformation-1

Stell' dir vor, du vermutest, dass du die Queen der emotionalen Intelligenz bist. Das möchtest du natürlich gerne an mindestens einem Test überprüfen. Um sicherzustellen, dass auch wirklich verlässliche Werte herauskommen und du nicht bloß deine Tagesform abbildest, machst du nun an zwei aufeinander folgenden Tagen zwei verschiedene Tests zur emotionalen Intelligenz, um die Werte miteinander vergleichen zu können.

Diese Tests beruhen jedoch jeweils auf unterschiedlichen Mittelwerten und Streuungen. Daher stehst du jetzt vor der großen Frage: was tun mit deinen Ergebnis-Werten? Denn diese lassen sich nicht so einfach unmittelbar miteinander vergleichen. Doch es gibt Hoffnung: die z-Transformation bzw. Standardisierung wandelt die Werte in eine neue gemeinsame Einheit um und macht sie somit direkt vergleichbar!

icon-logo-statistik

Was ist die z-Transformation?

Die z-Transformation oder auch Standardisierung überführt Werte, die mit unterschiedlichen Messinstrumenten erhoben wurden, in eine neue gemeinsame Einheit: in Standardabweichungs-Einheiten. Unabhängig von den Ursprungseinheiten können zwei (oder mehr) Werte nun unmittelbar miteinander verglichen werden.

Das Ergebnis der z-Transformation sind sogenannte "z-Werte". Diese stellen Standardabweichungen vom Mittelwert dar.

Ein z-Wert von 1 bedeutet beispielsweise, dass dieser Wert eine Standardabweichung vom Mittelwert entfernt ist, also eine Standardabweichung oberhalb des Mittelwerts liegt. Ein z-Wert von -2 besagt, dass sich der Wert zwei Standardabweichungen unterhalb des Mittelwerts befindet.

Die z-Werte wohnen in der Standardnormalverteilung – eine theoretische Verteilung von Werten, die für folgende Zwecke zum Einsatz kommt:

  • für den oben genannten Vergleich von Werten 
  • um den z-Test (= Gauß-Test) auf Mittelwertsunterschiede bei bekannter Varianz durchzuführen
  • und um die Wahrscheinlichkeiten für Intervalle zu berechnen, also z. B. wie wahrscheinlich es ist, dass eine zufällig ausgewählte Person einen IQ zwischen 60 und 75 IQ-Punkten hat  

Wir beschäftigen uns hier jedoch nur mit der ersten Einsatzmöglichkeit: dem Vergleich von Werten.

Und so sieht die Standardnormalverteilung aus – der Mittelwert bzw. Erwartungswert ist immer 0 und die Standardabweichung 1:

standardnormalverteilung
icon-logo-statistik

In welchen Bereich der Statistik gehört die z-Transformation?

Die z-Transformation gehört in die Welt der deskriptiven Statistik – und dort in den Bereich des Grundwissens.

icon-logo-statistik

Wie wird die z-Transformation berechnet?

Hier ist die Formel:

formel-standardisierung

Beispiel Heinz-Rüdiger:

Heinz-Rüdiger sorgt sich, dass seine Konzentration nachgelassen habe, und sucht daher die Psychologin seines Vertrauens auf.

Diese nötigt er dazu, ihn durch zwei verschiedene Konzentrationstests zu jagen.

Die Tests basieren auf folgenden Kennwerten / Normierungen:

Test 1: μ = 50, σ = 5    Test 2: μ = 80, σ = 15

Heinz-Rüdiger erzielt in Test 1: 56 Punkte und in Test 2: 101 Punkte.

Nun könnte man meinen, dass er in Test 2 fast doppelt so gut wie in Test 1 abgeschnitten hätte. Doch diese Testergebnisse lassen sich nicht unmittelbar miteinander vergleichen!

Daher wandelt sie die Psychologin flott in z-Werte um:

berechnung-z-wert
standardisierung-berechnung

Diese z-Werte lassen sich jetzt direkt miteinander vergleichen:

Heinz-Rüdiger hat in beiden Tests ähnlich abgeschnitten und liegt jeweils über eine Standardabweichung oberhalb des Mittelwerts. 

Guckst du:

ztransformation
icon-logo-statistik
Wie sag' ich's Tante Erna?

„Heinz-Rüdiger hat in beiden Konzentrationstests leicht überdurchschnittlich abgeschnitten.“

(z-Werte von 1.2 und 1.4)

„Er muss sich also keine Sorgen um seine Konzentrationsfähigkeit machen!“  

Na bitte! Da sind wir jetzt sehr erleichtert...

icon-logo-statistik

​Z-Transformation - das Video

Und Zum Abschluss noch ein Steckbrief:

icon-logo-statistik

Steckbrief z-Transformation

  • = Standardisierung
  • Umwandlung von Werten, die mit verschiedenen Messinstrumenten erhoben wurden, um sie vergleichen zu können
  • Nur bei metrischen Variablen anwendbar
  • Die neuen Werte sind z-Werte und wohnen in der Standardnormalverteilung
  • Die z-Werte sind nun unmittelbar miteinander vergleichbar
  • z-Werte stellen die Abweichung vom Mittelwert in Standardabweichungs-Einheiten dar
icon-logo-statistik

​Meine Challenge an Dich 🥳

Schnapp' dir doch gleich mal ein paar Werte, erfinde die Kennwerte / Normierungen dazu (also mü und sigma) und z-transformiere, was das Zeug hält!

Anschließend pinselst du bitte eine Standardnormalverteilung und versuchst dich an einer Interpretation für Tante Erna.

Viel Spaß!

Quellen:

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Standardabweichung & Varianz berechnen leicht gemacht!

frau-standartabweichung

An Standardabweichung und Varianz kommt niemand vorbei, der oder die Statistik lernt. Sie gehören zur statistischen Grundausstattung und laufen einem immer wieder über den Weg, egal ob in der deskriptiven oder der schließenden Statistik (ich sage nur: Varianzanalyse...). 

Beide zeigen, wie weit die Daten um den Mittelwert herum streuen, wobei nur die Standardabweichung praktisch interpretierbar ist und die typische Abweichung vom "Durchschnitt" anzeigt. 

Im Folgenden lernst du, wie du diese beiden Kennwerte berechnest und interpretierst!

icon-logo-statistik

Was sind Standardabweichung & Varianz?

Die Standardabweichung ist die Wurzel aus der Varianz und somit quasi ihre "Tochter".

Beide beschreiben bzw. quantifizieren die Streuung der Werte um den Mittelwert eines Datensatzes herum, geben also Auskunft darüber, wie sehr sich die Versuchspersonen im betreffenden Merkmal unterscheiden. Sie können nur bei metrischen Daten angewendet werden – bei Intervall-, Verhältnis- oder Absolutskala (falls dir das nichts sagt, guckst du hier).

Diese Streuungs- oder Dispersionsmaße sind in jeder empirischen Studie zu finden – meist wird die Standardabweichung als Zusatzinformation zum Mittelwert angegeben. Das sieht dann folgendermaßen aus: M (SD) – z. B. 5.14 (2.36) –, wobei M der Mittelwert ist (mean) und SD das Akronym für die Standardabweichung (standard deviation).

Der große Unterschied zwischen beiden ist, dass bei der Varianz die Werte im Quadrat vorliegen und bei der Standardabweichung in den Original-Einheiten. Beispielsweise macht die Aussage "Neurotizismus im Quadrat" (= Varianz beim Merkmal Neurotizismus) im Alltag bzw. umgangssprachlich durchaus Sinn, statistisch hingegen nicht. 

Daher dient die Varianz als rechnerische Brücke, um zur Standardabweichung zu kommen, welche für die konkrete Interpretation um einiges userfreundlicher ist. Zudem stellt die Varianz die Basis für weitergehende Berechnungen dar, z. B. bei der Regression oder – man hätte es fast vermutet – der Varianzanalyse.

In welchen Bereich der Statistik gehören sie?

Standardabweichung und Varianz gehören in die Welt der beschreibenden oder deskriptiven Statistik, sind jedoch auch in der schließenden Statistik anzutreffen – sie heißen dann nur ein wenig anders: Aus s (Standardabweichung) und s Quadrat (Varianz) werden auf Populationsebene dann Sigma und Sigma Quadrat. Das Prinzip bleibt jedoch das gleiche. 

Was sagt die Standardabweichung aus?

Die Standardabweichung beschreibt bzw. quantifiziert, wie weit die Werte typischerweise um den Mittelwert eines Datensatzes herum streuen: wie groß eine typische, repräsentative Abweichung vom "Durchschnitt" ist.

Wenn in den Daten Normalverteilung vorliegt, liegen knapp 70% aller Werte zwischen einer Standardabweichung unterhalb und einer Standardabweichung oberhalb des Mittelwerts.

Die Varianz sollte, wie oben bereits beschrieben, nicht zur Interpretation verwendet werden, sondern nur als Brücke, um zur Standardabweichung zu gelangen.

icon-logo-statistik

Standardabweichung & Varianz – das Video

icon-logo-statistik

Berechnung Varianz

Was wäre die Statistik ohne wunderschöne Formeln? Hier siehst du zunächst die Formeln, bevor ich dir erkläre, was du damit machst.

formel-varianz-alternative

ODER, auch gerne genommen (ist beides irgendwie hübsch):

varianz-formel

Je nach Lehrbuch findest du die eine oder die andere Variante. Wenn man durch "n - 1" teilt, kommt man näher an die in der Grundgesamtheit (= Population) geltende Varianz heran. Lass' dich jedoch nicht verunsichern und halt' dich einfach an das, was an deiner Hochschule gelehrt wird.

So gehst du vor:

  1. Berechne den Mittelwert
  2. Ziehe von jedem Wert den Mittelwert ab und setze das Ergebnis jeweils ins Quadrat
  3. Zähle dann alle quadrierten Werte zusammen
  4. Teile anschließend durch n – 1 (oder durch n, wie in manchen Lehrbüchern angegeben)

Um das Ganze an einem konkreten Beispiel zu veranschaulichen, nehmen wir eine Studie zum Selbstvertrauen bei Speed Dating Events, erhoben bei Erwachsenen über 18 Jahren. Das Selbstvertrauen wird zwischen 0 (gar nix vorhanden) und 30 (ergeht sich gern in Unwiderstehlichkeitsfantasien) skaliert. Hier sind die Daten: 

1,   20,   26,   14,   9,   6,   19,   22    n = 8

Der Mittelwert ist 14.63 (hier musst du für die Berechnung im Gegensatz zum Median nicht nach Größe ordnen!). Ersteren setzen wir nun ganz gepflegt in die Formel ein.

Hier ist zunächst die Variante mit "geteilt durch n – 1": 

varianz-berechnen-1

Die Varianz = 74.84 (ziemlich groß für diesen kleinen Datensatz und definitiv nicht interpretationstauglich).

Und nun die Version mit "geteilt durch n":

varianz-berechnen-2

Die Varianz = 65.48 (auch nicht viel hilfreicher...).

Wie du siehst, bringt uns das bei einer Skala von 0 – 30 für die Interpretation nicht wirklich weiter... Daher schreiten wir nun zur Standardabweichung:

icon-logo-statistik

Berechnung Standardabweichung

Wenn du die Varianz berechnet hast, ist der Löwenanteil bereits erledigt. Nun gilt es nur noch, die Wurzel aus der Varianz zu ziehen:

formel-standartabweichung-berechnen

So gehst du vor:

  1. Berechne die Varianz
  2. Ziehe die Wurzel daraus

Bei unserem Beispiel zum Selbstvertrauen bei Speed Dating Events kommt Folgendes heraus – oben geteilt durch n - 1, unten durch n:

ergebnis-standardabweichung-berechnen
ergebnis-standartabweichung-berechnen

Und was sagt uns das jetzt?

Bezogen auf eine relativ überschaubare Skala von 0 bis 30 sind diese Werte ziemlich hoch, d. h. die Versuchspersonen unterschieden sich ziemlich in ihrem Selbstvertrauen. Man kann also nicht wirklich von einer homogenen Stichprobe sprechen.

Zusammengefasst: 

Durchschnittlich hatten die Versuchs-Teilnehmer*innen einen Selbstvertrauenswert von ca. 15 (14.63), lagen also genau in der Mitte der Skala. Und typischerweise lagen die Werte zwischen 7 und 23 – ich runde hier und nehme für diese Aussage eine Standardabweichung von 8 um den Mittelwert herum, also 15  +/–  8 = 7 bzw. 23.

icon-logo-statistik

Hinter die Löffelchen schreiben:

Worauf du bei der Interpretation immer achten solltest, ist die Skala, auf der das interessierende Merkmal erhoben wurde. Es gilt also immer, die Größe der Standardabweichung ins Verhältnis zur Spannweite der Skala zu setzen.

Eine Standardabweichung von 2.2 ist bei einer Skala von 0 – 5 ziemlich hoch – und wäre bei einer Skala von 1 – 100 hingegen sehr gering.

icon-logo-statistik

Standardabweichung & Varianz mit SPSS

Beide Kennwerte lassen sich nicht exklusiv aufrufen, sondern werden bei verschiedenen Varianten der deskriptiven Statistiken mitgeliefert. Und wie so häufig bei SPSS, führen mehrere Wege zum Glück.

Geh' entweder auf "Analysieren", "Deskriptive Statistiken", "Häufigkeiten", dann auf den Button "Statistiken" und kreuz' beide Streuungsmaße an.

Oder du wählst den Weg über "Analysieren", "Deskriptive Statistiken", "Deskriptive Statistik". Hier wird die Standardabweichung bereits standardmäßig mit ausgeworfen. Wenn dich jedoch auch die Varianz interessiert, musst du im Eingabefenster für die Variablen bei "Optionen" einen Haken setzen.

Die umfassendste Auswertung erhältst du, wenn du auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse" gehst. Ein Beispiel dafür findest du hier.

Zum Abschluss noch ein kleiner Steckbrief:

icon-logo-statistik

Steckbrief Standardabweichung & Varianz

  • Beide beschreiben die Streuung um den Mittelwert herum
  • Gehören zur deskriptiven sowie zur schließenden Statistik
  • Nur bei metrischen Skalen anwendbar!
  • Die Varianz ist aufgrund der quadratischen Einheiten nicht zur Interpretation geeignet
  • Die Standardabweichung sagt aus, wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden.
  • Beide reagieren sehr sensitiv auf Ausreißer – in diesem Fall nur vorsichtig interpretieren oder nicht verwenden
  • Können in SPSS auf verschiedene Weisen bei den "Deskriptiven Statistiken" aufgerufen werden
icon-logo-statistik

Wie wär's mit einem virtuellen Fleißbild?

Na, wie sieht's aus – reicht die Motivation noch für eine unmittelbare Anwendung des Gelesenen?

Dann schnapp' dir einen kleinen Datensatz und rechne wild drauflos – und du erhältst ein virtuelles Fleißbild von mir.

Und nicht vergessen: Regelmäßig Belohnen!

Der Spaßfaktor von Statistik hält sich meist in eng umschriebenen Grenzen. Daher sollte man sich's beim und nach dem Lernen ganz arg gut gehen lassen. Zum Beispiel so:

süßes-nach-dem-lernen-varianz
icon-logo-statistik

WIE WÄR'S MIT STATISTIK-NACHHILFE?

Oder mit Webinaren, Statistik-Fragestunden & Crashkursen?

fragen-statistik-lernen-maskottchen-1

Klickst du...

Median verständlich erklärt

studierende-median

Median oder Mittelwert – das ist hier die Frage! Wann nimmt man was? Und was ist der Median überhaupt? Wie wird er berechnet? Für die Eiligen gibt's zunächst die Kurzversion (quasi ein Spoiler, bevor's überhaupt mit dem Artikel losgeht...): 

Der Median oder auch Zentralwert ist derjenige Wert, der in einer nach Größe geordneten Reihe von Werten genau in der Mitte liegt.

Stell' dir vor, du schreibst alle in einem Datensatz vorkommenden Werte nach Größe geordnet längs auf ein Blatt Papier, von Rand zu Rand. Anschließend faltest du das Papier genau in der Mitte: dann ist der Wert, der auf dem Knick liegt, der Median.

icon-logo-statistik

Was ist der Median?

Der Median unterteilt einen nach Größe geordneten Datensatz in zwei Hälften: mindestens 50% der Daten sind kleiner als (oder gleich) und mindestens 50% sind größer als (oder gleich) dem Median.

Es ist derjenige Wert, der genau in der Mitte des Datensatzes liegt – daher der Name "Zentralwert". Er ist ein Maß für die zentrale Tendenz.

Bei einem ungeraden Datensatz ist der Zentralwert direkt im Datensatz enthalten, bei einem ungeraden Datensatz wird er aus den beiden in der Mitte befindlichen Werten gemittelt, also sozusagen künstlich erschaffen.

Weitere alternative Bezeichnungen sind 2. Quartil (Q2) und das 50%-Quantil.

icon-logo-statistik

In welchen Bereich der Statistik gehört er?

Der Zentralwert gehört in die Welt der beschreibenden oder deskriptiven Statistik. Bei der Deskriptivstatistik geht's darum, die in einem Datensatz enthaltene Information auf wenige Kennwerte zu reduzieren und zudem grafisch darzustellen. Es werden im Gegensatz zur Inferenzstatistik keine Schlüsse auf die dazugehörige Grundgesamtheit gezogen, sondern nur beschrieben, was in einer bestimmten Stichprobe zu finden ist.

Der Median gehört zu den Lagemaßen, die den Schwerpunkt eines Datensatzes beschreiben.

icon-logo-statistik

Was sagt der Median aus?

Ehrlich gesagt lässt sich hier nicht so wahnsinnig viel hineininterpretieren. Nur dies: bis zu diesem Punkt haben sich 50% aller Werte angesammelt und 50% liegen darüber. That's it.

icon-logo-statistik

Wann nimmt man ihn her?

Wenn es Ausreißer oder Extremwerte im Datensatz gibt und der Mittelwert nicht verwendet werden sollte – oder wenn ordinalskalierte Daten vorliegen. Man verwendet den Median, um die Mitte eines Datensatzes bestimmen bzw. quantifizieren zu können. 

Achtung: Bei ordinalskalierten Daten wie z. B. Rangplätzen und geradem Datensatz ist der Median nicht eindeutig festzulegen: Wenn es beispielsweise in einem Schönheitswettbewerb den 1., 2., 3. und 4. Platz gibt, läge der Median rechnerisch zwischen dem 2. und dem 3. Platz. Das wäre dann der 2.5te Platz, den es jedoch nicht gibt!

icon-logo-statistik

Median ohne Formeln – das Video

icon-logo-statistik

Median ohne Formeln

Die Berechnung des Zentralwerts ist recht einfach, wird jedoch wie üblich in der Statistik etwas kompliziert dargestellt. Wie du gleich sehen wirst, gibt es zwei Varianten: einmal für einen ungeraden und einmal für einen geraden Datensatz.

Als Beispiel nehmen wir eine Erhebung zur Angst, etwas zu verpassen (FOMO = Fear of Missing Out), erhoben bei Jugendlichen zwischen 14 und 18 Jahren. FOMO wird hier zwischen 0 (keinerlei Angst, tiefenentspannt) und 100 (Stirbt gefühlt, wenn nicht alle Social Media Feeds minütlich gecheckt werden) skaliert. Dies sind die Daten: 

Ungerader Datensatz: 23, 56, 87, 30, 28, 45, 66, 18, 49, 48, 55   n = 11

Gerader Datensatz: 23, 56, 87, 30, 28, 45, 66, 18, 49, 48    n = 10

Ungerader Datensatz

Auch ohne Formeln ist der erste Schritt immer, die Daten nach Größe zu ordnen!

Danach schaust du einfach, welcher Wert genau in der Mitte liegt: hier ist es die 48. Bingo. 

median-ohne-formeln

gerader Datensatz

Hier musst du einfach nur die beiden in der Mitte stehenden Werte mitteln – et voilà!

zentralwert-ohne-formeln
icon-logo-statistik

Berechnung des Medians mit Formeln

Und nun das Ganze mit Formeln für die beiden Varianten. Die tiefergestellten Klammern rechts neben den x zeigen Positionsnummern an, also an welcher Stelle ein bestimmter Wert in einer nach Größe geordneten Datenreihe steht.

formel-median
icon-logo-statistik

Berechnung bei ungeradem Datensatz

median-ungerader-datensatz

1. Ordne nach Größe

datenreihe-median

2. Rechne die Positionsangabe in der Klammer aus

rechenweg-zentralwert-ungerade

3. Welcher Wert befindet sich an dieser Position?

Das ist der Median!

median-berechnen
icon-logo-statistik

Berechnung bei geradem Datensatz

formel-median-gerader-datensatz

1. Ordne nach Größe

gerade-datenreihe-zentralwert

2. Rechne die Positionsangaben in den Klammern aus

rechenweg-median
rechenweg-zentralwert

3. Welcher Werte befinden sich an diesen Positionen?

datensatz-zentralwert

4. Setze diese Werte in die Formel ein und du bekommst den Wert des Medians

ergebnis-median

Zusammengefasst: 

Bei ungeraden Stichproben rechnest du eine Position aus und schaust dann den Wert nach.

Bei geraden Stichproben wechselst du von der Positionsberechnung zum Rechnen mit „richtigen“ Werten und bekommst als Ergebnis gleich den Wert des Medians heraus (und nicht seine Position).

icon-logo-statistik

Median mit SPSS

Den Median kannst du nicht exklusiv aufrufen, sondern bekommst ihn bei der Explorativen Datenanalyse mitgeliefert.

Dazu gehst du auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du die dich interessierenden Variablen aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". Ein Beispiel dafür findest du hier.

Zu guter Letzt noch eine kleine Kurz-Übersicht:

icon-logo-statistik

Steckbrief Median

  • Der Median ist derjenige Wert, der einen Datensatz in 50% kleinere und 50% größere Werte unterteilt
  • Gehört zur Welt der deskriptiven Statistik
  • Anwendbar ab Ordinalskala aufwärts
  • Bei Ordinalskala und geradem n nicht eindeutig definiert
  • Wenn Ausreißer vorliegen, ist er zur Interpretation besser geeignet als der Mittelwert (Letzterer reagiert sehr sensibel auf Ausreißer und Extremwerte)
  • Ist in SPSS in der Explorativen Datenanalyse enthalten.
  •  Der Median / Zentralwert ist der Wert bzw. Strich, der in der Mitte der Box des Boxplots liegt
icon-logo-statistik

geschafft!

Turning insight into action…

Wie wär's – reicht die Motivation noch für eine unmittelbare Anwendung des Gelesenen? Dann könntest du zum Beispiel die oben angegebenen Werte bei SPSS eingeben und die Explorative Datenanalyse rechnen lassen. 

Oder du überlegst dir eine fiktive Untersuchung nebst Zahlen und rechnest wild drauflos. 

Variante 3: Such' dir Übungsaufgaben – entweder im Internet oder in deinen Lehr- bzw. Übungsbüchern. 

Oder aber du machst nichts... auch gut.

Aber vorher gilt wie immer: Belohnen!

Statistik ist bekanntlich nicht so lustig. Daher sollte man sich's nach dem Lernen (oder auch währenddessen) unbedingt gut gehen lassen...

heiße-schokolade
icon-logo-statistik

WIE WÄR'S MIT STATISTIK-NACHHILFE?

Oder mit Webinaren, Statistik-Fragestunden & Crashkursen?

fragen-statistik-lernen-maskottchen-1

Klickst du...

Boxplots leicht gemacht!

boxplot-schuljahr

Wilde Zeichnungen von "Schachteln", auch Boxplots genannt, begegnen dir meist bereits zu Beginn deiner Statistik-Karriere. Sie gehören in die bunte Welt der deskriptiven, beschreibenden Statistik, in der es darum geht, die Informationen, die in einem Datensatz enthalten sind, auf einige wenige Kennwerte zu reduzieren, also sozusagen die Essenz herauszuarbeiten.

Nun kann man das zum einen rechnerisch machen, z. B. mit dem Mittelwert, Varianz, Median etc., aber zudem auch grafisch. Und zu diesen grafischen Darstellungen der enthaltenen Informationen gehört der Boxplot, mit dem sich praktischerweise gleichzeitig sowohl die zentrale Tendenz eines Datensatzes als auch die Streuung darstellen lässt.

Wissenswertes rund um den Boxplot

Wie bereits eingangs erwähnt, kannst du mit dem Boxplot in einer einzigen Grafik die zentrale Tendenz sowie die Streuung darstellen. Die Streuung sagt dir, wie weit die Daten um den Zentralwert herum verteilt sind bzw. wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden. Der verwendete zentrale Wert ist hier jedoch nicht der Mittelwert, sondern der Median, also derjenige Wert, der einen nach Größe geordneten Datensatz in zwei Hälften unterteilt: in 50% kleinere und 50% größere Werte.

Ein weiterer großer Vorteil des Boxplots ist, dass man sofort erkennen kann, ob es Ausreißer in einem Datensatz gibt, also Werte, die weit ab von den übrigen Werten liegen. Da der Median, der dem Boxplot zugrunde liegt, deutlich robuster gegenüber Ausreißern und Extremwerten als der Mittelwert ist, können diese mit  dem Boxplot gut visualisiert werden. Häufig stellt sich dann die Frage, wie mit diesen Werten zu verfahren sei, d. h. ob sie im Datensatz belassen oder möglicherweise entfernt werden sollen – Letzteres jedoch nur, wenn es triftige Gründe dafür gibt, wie z. B. dass eine Versuchsperson nicht wirklich mitmachen wollte und sich nicht anstrengte. Ein weiterer Grund wären Eingabefehler.

Die Voraussetzung, um einen Boxplot berechnen zu können, ist eine Variable, die mindestens Ordinalskalen-Niveau hat. Das bedeutet, dass bei Merkmalen wie Geschlecht, Nationalität oder Farbpräferenz kein Boxplot berechnet werden kann (Infos zu den Skalenniveaus findest du hier).

Was hat es mit der Box auf sich? Die Box, die der Name Boxplot beinhaltet, zeigt an, in welchem Bereich sich die mittleren 50% aller Werte befinden. Das untere Ende der Box ist derjenige Punkt in den Daten, an dem sich die unteren 25% angesammelt haben (25%-Perzentil). Der Strich in der Mitte ist der Median (bis hierher haben sich 50% angesammelt, das 50%-Perzentil) und das Ende der Box kennzeichnet den Punkt, an dem sich 75% aller Werte angesammelt haben (75%-Perzentil).

Das untere Ende der Box wird als Q1 bezeichnet, der Median als Q2 und das obere Ende als Q3. Die Länge der Box bzw. Differenz zwischen Q3 und Q1 wird Interquartilsabstand oder IQR genannt (aus dem Englischen: interquartile range).

Übrigens wird der Boxplot manchmal auch als Box-Whisker-Diagramm bezeichnet.

icon-logo-statistik

Berechnung des Boxplots

Überblick:

1. Berechne den Median, der den Datensatz in zwei Hälften unterteilt

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

icon-logo-statistik

Boxplot – das Video

icon-logo-statistik

Und nun die Ausführliche Schriftliche Anleitung:

Unser Beispiel: Eine Psychologin interessiert sich für die Reaktionszeit von Kindern zwischen 6 und 12 Jahren. Diese sollen im Labor sofort die Enter-Taste am Computer drücken, sobald ein rosa-flauschiges Glitzer-Einhorn erscheint. Die Ergebnisse der Versuchspersonen sind in Millisekunden angegeben.

1. Berechne den Median

Ordne als erstes die Zahlen nach Größe.

Nun gibt es zwei Varianten: gerade und ungerade Anzahl an Werten im Datensatz.

Bei einer geraden Anzahl an Werten musst du nach dem Ordnen die beiden genau in der Mitte des Datensatzes liegenden Werte mitteln, also einen neuen Wert berechnen, der so gar nicht im Datensatz vorkommt.

Hier sind die Ergebnisse unserer Probanden:

5    7    9    12    13    13    14    30

Wir haben nun acht Werte. Die beiden Werte, die in der Mitte liegen (an Position 4 und 5), werden gemittelt, d. h. zusammengezählt und dann durch 2 geteilt, was 12.5 ergibt. 12.5 ist hier also der Median.

Guckst du: 

median-gerader-datensatz

Bei einer ungeraden Anzahl an Werten ist der Median direkt im Datensatz enthalten und derjenige Wert, der genau in der Mitte des nach Größe geordneten Datensatzes liegt:

Beispiel von oben:

5   7   9   12   13   13    14   16  30

median-ungerader-datensatz

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

Jetzt berechnest du von den beiden durch den Median entstehenden Datenhälften jeweils wiederum den Median.

Hier sind sich die Statistiker nicht ganz einig, wie bei einem Datensatz mit ungerader Anzahl von Werten zu verfahren ist: sollte man den Median jeweils zu den beiden Datensatz-Hälften dazunehmen oder rauslassen?

Beides ist legitim – richte dich einfach danach, was an deiner Hochschule gelehrt wird. Die beiden Varianten sehen so aus:

boxplot-ungerader-datensatz
ungerader-datensatz-boxplot

Beim obigen Datensatz mit einer geraden Anzahl von Werten:  

5     7     9    12    13     13    14    30

Hier wären die Mediane der beiden Datensatz-Hälften Folgende:

5   7   9   12    – Median bzw. Q1 ist 8  

13   13   14   30    – Median bzw. Q3 ist 13.5

boxplot-quartile-gerader-datensatz

Wir machen nun mit diesem geraden Datensatz weiter und können jetzt IQR oder die Länge der Box berechnen. Dazu ziehen wir von Q3 das Q1 ab:

13.5 (Q3) – 8 (Q1) = 5.5 (IQR)


3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

Bei unserem Beispiel bietet sich eine Skalierung von 0 bis knapp über 30 an. Zeichne nun Q1 (8), den Median (12.5)  sowie Q3 (13.5) ein und verbinde das ganze mit einer hübschen Box. Ob du die Box liegend oder aufrecht malst, ist vollkommen egal. Das Ganze sieht dann so aus:

box-boxplot


4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

Die sog. "Whisker" (aus dem Englischen: whisker = Schnurrhaare) sind die Striche, die aus der Box auf beiden Seiten (meist) herausragen (es gibt auch Boxplots, bei denen nur einer oder keiner der beiden Whisker herausragt). Grundsätzlich gilt: Die Whisker werden einmal am unteren Ende der Box nach unten und einmal am oberen Ende der Box nach oben eingetragen (oder nach links und rechts – je nachdem, ob du den Boxplot aufrecht oder liegend zeichnest).

Berechnung:

Unser ​​IQR ist 5.5. Wenn wir das mit 1.5 multiplizieren, ergibt das

5.5 x 1.5 = 8.25

Warum man die Länge der Box nun gerade mit 1.5 multiplizieren muss, könnte man, so man wollte, mühsam mathematisch herleiten – aber das wollen wir definitiv nicht! Daher nimm' das bitte einfach als gegeben hin und sieh' es als eines der vielen Mysterien in der Welt der Statistik an...

Achtung: IQR mal 1.5 ist die POTENZIELLE, d.h. grundsätzlich mögliche Maximallänge der Whisker und meist nicht die tatsächliche Länge! 

POTENZIELL könnten die Whisker in unserem Beispiel so aussehen:

Das untere Ende der Box ist 8. Von dort aus 8.25 nach unten wären:  8 – 8.25 = -0.25

Das obere Ende der Box ist 13.5. Von dort aus 8.25 nach oben wären:  13.5 + 8.25 = 21.75

D. h., die Whisker würden POTENZIELL im unteren Bereich der Skala bis -0.25 gehen und im oberen Bereich bis 21.75, hier als gestrichelte grüne Linien gezeichnet:

whisker-potenziell
icon-logo-statistik

GUT zu wissen:

Die whisker werden nur bis zu denjenigen datenPunkten gezeichnet, die sich noch innerhalb der potenziellen maximalen Whiskerlänge befinden!

Werte, die außerhalb dieser potenziellen Länge liegen, werden als Ausreißer oder Extremwerte eingezeichnet!

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

Das wären in unserem Beispiel mit    5     7     9    12    13     13    14    30   die 5 im unteren und die 14 im oberen Bereich. Guckst du:

boxplot

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

Ausreißer sind Werte, die etwas außerhalb der potenziellen maximalen Whiskerlänge liegen. Bei SPSS werden diese gewöhnlich mit Kringeln eingezeichnet.

Extremwerte sind Werte, die mehr als drei Interquartilsbereiche außerhalb der Box und somit sehr weit ab von allen anderen liegen. Diese werden gewöhnlich mit Sternchen gekennzeichnet.

In unserem Beispiel gibt es einen Ausreißer von 30 Millisekunden. Diese Versuchsperson brauchte also besonders lange, bis sie nach Auftauchen des rosa-flauschigen Glitzer-Einhorns auf die Enter-Taste drückte. Sind diese 30 Millisekunden nun als Extremwert zu bezeichnen? Berechnen wir das doch mal:

Der Wert von 30 Millisekunden wäre ein Extremwert, wenn er 3 IQRs vom Ende der Box entfernt läge, also 3 mal 5.5 (IQR) = 16.5 Millisekunden vom oberen Ende der Box entfernt.

Die Box endet bei 14. Zählen wir nun 16.5 dazu, erhalten wir 30.5. Ab hier würde der Bereich der Extremwerte beginnen. Unser Wert 30 liegt knapp darunter, d. h. es ließe sich streiten, ob das noch als Ausreißer oder schon als Extremwert anzusehen ist. Technisch gesehen ist es NOCH ein Ausreißer, also malen wir ihn mit einem Kringel ein und haben jetzt endlich unseren fertigen Boxplot!

boxplot-mit-ausreisser
chamaeleon-bambus-spss
icon-logo-statistik

Interpretation von Boxplots

  • Du kannst an der Lage des Medians innerhalb der Box sowie den Längen der Whisker erkennen, ob die Werte des Datensatzes symmetrisch oder aber ungleich verteilt sind:
  • Bei symmetrischen Verteilungen liegt der Strich genau in der Mitte der Box.
  • Bei rechtssteilen Verteilungen ist der Strich nach oben oder rechts hin verschoben und bei linkssteilen nach unten bzw. links: viele Werte drängen sich bei diesen Verteilungen in einem Bereich, wohingegen der Rest weiter verteilt ist. 
  • Das lässt sich an unserem Boxplot mit den Werten   5     7     9    12    13     13    14   30  schön erkennen: der Median ist nicht in der Mitte der Box, sondern nach oben bzw. rechts verschoben. Da zwischen dem Median und dem oberen (Q3) bzw. unteren Ende der Box (Q1) jeweils 25% aller Werte liegen, bedeutet ein nach rechts verschobener Strich hier, dass zwischen dem Median von 12.5 und dem Q3 von 13.5 ca. 25% aller Werte liegen (recht gedrängt), wohingegen weitere 25% aller Werte zwischen 8 (Q1) und 12.5 (Median) liegen, also weiter verteilt. Dies ist somit ein Beispiel für eine rechtssteile Verteilung.
  • Die Positionierung der Box auf der Achse zeigt dir, in welchem Bereich deiner Skalierung die mittleren 50% aller Werte liegen. Bei unserem Datensatz wäre das zwischen 8 und 13.5. Somit wiesen 50% aller Kinder Reaktionszeiten auf, die zwischen 8 und 13.5 Millisekunden lagen.
  • Ein breiter Interquartilsbereich, also eine breite Box, zeigt an, dass die Streuung groß ist und sich die Versuchspersonen im untersuchten Merkmal sehr unterscheiden. Ein kleiner IQR bedeutet hingegen, dass sich alle in ihrer Merkmalsausprägung recht ähnlich sind. Welcher Fall in unserem Beispiel zutrifft, müsste anhand der Forschungsliteratur überprüft werden: welche Werte sind bei Reaktionszeiten bei Kindern typisch? Daher lässt sich nicht zuletzt aufgrund des sehr kleinen Datensatzes (noch) keine Aussage treffen.
  • Die Länge der Whisker ist ebenfalls relevant: lange Whisker deuten auf eine breitere Verteilung hin, kurze auf eine schmale bzw. spitzgipflige.
  • Der kurze rechte Whisker in unserem Beispiel unterstreicht noch einmal die Aussage einer rechtssteilen Verteilung – hier laufen die Werte nicht gemächlich nach rechts bzw. oben hin aus, sondern fallen gewissermaßen jäh ab (und es gibt einen Ausreißer mit 30 Millisekunden). Auf der linken, unteren Seite ist der Whisker hingegen länger: die Werte ziehen sich also weiter in den unteren Bereich hinein.
chamaeleon-bambus-spss
icon-logo-statistik

Boxplot mit SPSS

Um den Boxplot bei SPSS zu erstellen, gehe nach Aufrufen eines von dir ausgewählten oder erstellten Datensatzes auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du dann die interessierende Variable aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". Der Boxplot wird automatisch im Zuge der gesamten Auswertung der Explorativen Datenanalyse generiert, d. h. du musst ein wenig nach unten scrollen, bis er unterhalb des Stamm-Blatt-Diagramms erscheint.

Ein weiterer Weg, um den Boxplot aufzurufen, ist über "Grafik", "Alte Dialogfelder", "Boxplot".

Und so sieht der von SPSS erstellt Boxplot für unseren Datensatz aus. SPSS gibt übrigens praktischerweise bei den Ausreißern und Extremwerten immer die Nummer der dazugehörigen Versuchsperson an, was hier das Kind Nr. 8 war.

boxplot-spss
chamaeleon-bambus-spss
icon-logo-statistik
Probleme beim Lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

icon-logo-statistik

Geschafft!

Na bitte, geht doch! Wenn du bis hierher gelesen hast – Gratulation! 

Und jetzt wäre es vielleicht ganz gut, im Sinne von "Turning insight into action" das Ganze gleich mal mit einer anderen Variablen in diesem oder einem anderen Datensatz anzuwenden...  

Aber vorher ist definitiv Zeit für eine wohlverdiente Belohnung, um wieder Motivation zu tanken und das Lernen von Statistik etwas angenehmer zu gestalten! 

peanut-butter-cups
>