Category Archives for Deskriptive Statistik meistern

Vorhersage leicht gemacht: einfache lineare Regression

Regression Vorhersage

Wer hätte es gedacht: selbst in der Statistik gibt es die sagenumwobene Glaskugel zur Prognose menschlichen Erlebens und Verhaltens – die lineare Regression! Kurz & knackig: wenn du einen linearen Zusammenhang zwischen zwei Variablen hast, kannst du mit der einen Variable die andere (mehr oder weniger gut) vorhersagen. Das Zauberwort heißt hier VORHERSAGE! Wenn du das irgendwo liest, geht es in in den allermeisten Fällen um die Regression.

icon-logo-statistik

Was ist die einfache lineare Regression?

= statistische Methode zur Vorhersage bei vorab bestehendem linearen Zusammenhang zwischen zwei metrischen Variablen

BEISPIEL:

Angenommen, du stellst in einer Studie einen linearen Zusammenhang (siehe unten) zwischen Humor und Freudfähigkeit fest. Nun könntest du dir die Frage stellen, ob vielleicht das Ausmaß an Humor das Ausmaß an Freudfähigkeit vorhersagen könnte.

Du schnappst dir eine der beiden Variablen, z. B. den Humor, und machst sie zur vorhersagenden Variable (= Prädiktor) und die andere deklarierst du als die vorherzusagende Variable (= Kriterium).

Als Ergebnis erhältst du dann ein Modell (= eine Gleichung – mehr dazu weiter unten), mithilfe dessen du für jeden beliebigen Wert an Humor den entsprechenden Freudfähigkeits-Wert vorhersagen kannst.

Quasi im Sinne von: sag' mir dein Ausmaß an Humor – und ich sage dir, wie freudfähig du vermutlich bist!

Die einzelnen Bestandteile in "einfache lineare Regression":

EINFACHE: EINE metrische Variable (= Merkmal) sagt eine andere vorher

LINEARE: zwischen den beiden Variablen muss ein LINEARER ZUSAMMENHANG bestehen. Das ist ein Zusammenhang, der durch eine Gerade darstellbar ist und nicht z. B. U-förmig oder umgekehrt U-förmig aussieht, denn bei kurvilinearen Zusammenhängen funktioniert dieses Verfahren nicht!

Für die Berechnung einer linearen Regression brauchen wir also Zusammenhänge, die so aussehen:

- mehr oder weniger geordnete Punktewolke, die von links unten nach rechts oben geht = positiver Zusammenhang

ODER

- mehr oder weniger geordnete Punktewolke, die von links oben nach rechts unten geht = negativer Zusammenhang

Guckst du hier für Beispiele: 1. Bild: positiver, 2. Bild: negativer linearer Zusammenhang

linearer positiver Zusammenhang
linearer-negativer-zusammenhang

REGRESSION: kommt aus dem Lateinischen "regredi": zurückkehren, zurückkommen. Die Ausprägung der einen Variable wird auf die andere zurückgeführt.

ZIEL DER einfachen linearen REGRESSION:

Ein Modell zu erhalten, mit dem man für jeden beliebigen Wert der einen Variablen den dazugehörigen Wert der anderen vorhersagen kann!

Hinter die Löffelchen schreiben:

Bei der Regression darf man NICHT von einem kausalen Zusammenhang sprechen! 

Auch wenn die Interpretation oft so klingt.

Die Vorhersage ist stochastisch, d. h. vom Zufall abhängig, und NICHT deterministisch!

Deterministisch wäre eine Aussage wie: IMMER wenn jemand einer Humor-Wert von 56 hat, wird sie / er einen Freudfähigkeits-Wert von 63 haben.

icon-logo-statistik

In welchen Bereich der Statistik gehört sie?

einfache-lineare-regression-einordnung

Deskriptive Statistik (Zusammenhänge):

Wenn die Regression rein beschreibend eingesetzt wird und NICHT auf die dazugehörige Grundgesamtheit verallgemeinert werden soll, gehört sie zur deskriptiven bzw. beschreibenden Statistik.

ODER:

Inferenzstatistik – Welt der Zusammenhänge:

Wenn die Regression dafür eingesetzt wird, um auf die dazugehörige Grundgesamtheit (= Population) zu schließen, zählt man sie zur schließenden oder Inferenzstatistik.

In diesem Blog Post wird nur die beschreibende Variante behandelt!

Die inferenzstatistische Auswertung mit SPSS findest du hier.

icon-logo-statistik

Typische Fragestellungen

Lässt sich das Einkommen aus dem IQ vorhersagen?

Sagt das Ausmaß an Vorbereitungszeit den Klausurerfolg voraus?

Kann man mit der Anzahl an konsumierten Zigaretten die Lebensdauer vorhersagen?

Ist die Hochsensibilität ein Prädiktor für Empathie?

icon-logo-statistik

Voraussetzungen

Linearer Zusammenhang zwischen den beiden Variablen

: mindestens intervallskaliert & normalverteilt

Werte der Versuchspersonen sind unabhängig voneinander

Normalverteilte Fehler

Homoskedastizität: die Residuen (siehe unten) sollen alle ähnlich um die Regressionsgerade streuen

icon-logo-statistik

Vorgehen Regression in a nutshell

Nachfolgend siehst du anhand des obigen Beispiels, wie eine Regression "entsteht": 

Du hast einen positiven linearen Zusammenhang zwischen Freudfähigkeit und Humor festgestellt. Das würde bedeuten: je freudfähiger jemand ist, desto mehr Humor hat er oder sie – und umgekehrt: je humorvoller, desto freudfähiger. Oder: je weniger humorvoll, desto weniger freudfähig (und umgekehrt).

Beide metrische Variablen (Intervallskala) wurden auf einer Skala von 0 bis 100 erfasst, 0 = gar nicht vorhanden und 100 = extrem ausgeprägt.

Nun willst du untersuchen, ob bzw. wie du mit dem Humor die Freudfähigkeit vorhersagen kannst.

Wie oben bereits erwähnt, wird hier nicht auf die inferenzstatistische Auswertung eingegangen – das wäre dann die Beantwortung der Frage, ob der Humor ein signifikanter Prädiktor für die Freudfähigkeit ist. Wir beschäftigen uns hier einfach damit, ein Vorhersagemodell zu basteln, ohne auf statistische Signifikanz zu prüfen (das ist die deskriptivstatistische Auswertung).

1.

Linearer Zusammenhang zwischen beiden Variablen

einfache-lineare-regression-beispiel

2.

Zuordnung: wer ist Prädiktor, wer Kriterium?

Meist ist es klar, welche Variable welche vorhersagt. Es gibt aber auch Fälle, wo das beliebig austauschbar ist.

Die vorhersagende Variable, der Prädiktor, wird nun auf die x-Achse gepackt, die vorhergesagte (Kriterium) auf die y-Achse.

einfache-regression-zuordnung-prädiktor

3.

Gerade finden, zu der die Abstände der Punkte am geringsten sind

Um ein Regressions-Modell zur Vorhersage zu erhalten, nutzen wir die Daten der Stichprobe und suchen diejenige Gerade, die so in der Punktewolke liegt, dass die Abstände aller Datenpunkte zur Geraden am kleinsten sind. Weiter unten folgt die genauere Erklärung zu diesem Schritt.

regressionsgerade

4.

Finales Modell – nur noch die Gerade!

Das ist der Schritt, der viele Studierende verwirrt: am Ende bleibt nur noch die Regressionsgerade übrig, die wir nun zur Vorhersage nutzen können. Wie das geht, zeige ich dir im Bild bei "5.". 


Das bedeutet, dass wir die Daten aus der Stichprobe nur dazu verwenden, um die optimale Gerade (= optimales Vorhersagemodell) zu finden. Sobald wir die Gerade haben, interessieren uns die ursprünglichen Datenpunkte nicht mehr!


Übrigens: Die Regressionsgerade verläuft immer durch den Mittelwert von x und y

regressionsmodell-einfache-regression

5.

Beispiel für die Vorhersage

Wenn du die Gerade hast, kannst du für jeden beliebigen Wert des Prädiktors den dazugehörigen Wert im Kriterium vorhersagen.

In unserem Beispiel könnten wir also ganz wild für jeden Humor-Wert zwischen 0 und 100 eine Vorhersage für den dazugehörigen Freudfähigkeitswert derselben Person treffen. 


Im "echten Leben" wird das natürlich alles berechnet. Ich zeige dir das jetzt erst einmal zum besseren Verständnis nur grafisch, bevor wir uns anschließend beherzt in die Berechnung stürzen.


Was wir nun wissen wollen, ist, welcher Freudfähigkeits-Wert für jemanden mit einem leicht überdurchschnittlich ausgeprägten Humor (Wert von 62) vorhergesagt wird.


Dazu geht man auf der x-Achse bei 62 senkrecht nach oben, bis man die Gerade erreicht.

Hier macht man eine harte Linkskurve, wandert waagrecht bis zur y-Achse und liest dort den Wert ab. Das ist der vorhergesagte Freudfähigkeits-Wert – hier: 74,7, also ziemlich freudfähig (bei der Interpretation immer die dazugehörige Skala im Auge haben!).

Guckst du:

beispiel-vorhersage-einfache-regression
icon-logo-statistik

Wie findet man die optimale Gerade?

Die KQ-Schätzung

Die optimale Gerade liegt so in der Punktewolke, dass die Abstände zwischen den Datenpunkten aus der Stichprobe zur Geraden am kleinsten sind – parallel zur y-Achse, nicht im Lot zur Geraden!

Diese Abstände heißen Residuen (Einzahl: Residuum) oder auch Vorhersagefehler. Meist werden sie als "e" für "error" bezeichnet. 

residuen

Der Punkt, wo das Residuum auf der Geraden auftrifft, ist der vorhergesagte Wert, meist als "y Dach" bezeichnet, mit einem schicken Häubchen drauf. Nähere Erklärung siehe unten bei den verschiedenen Bezeichnungen.

Der Datenpunkt aus der Stichprobe ist y.

Die Residuen werden berechnet, indem man vom Wert von y den vorhergesagten Wert y Dach abzieht – siehe Grafik.

y-dach-regression

Die Residuen / Abstände zur Geraden sind oberhalb der Geraden positiv und unterhalb negativ und summieren sich immer zu 0 auf. Daher hinter die feinen Löffelchen schreiben:

Die Summe der Residuen ist stets 0!

vorhersagefehler-regression

Nun will man aber genau diese Abstände verwenden, um die optimale Gerade zu finden.

Daher macht man etwas ganz Schlaues: man zählt die Residuen nicht einfach nur zusammen, denn das würde ja 0 ergeben, sondern quadriert alle Residuen, bevor man sie zusammenzählt. Dadurch wird das negative Vorzeichen entfernt und man erhält immer einen positiven Wert! 

Jetzt schaut man, wo die Gerade liegen muss, damit dieser Wert am kleinsten ist (das wird von den Statistik-Programmen mit der sogenannten Differentialrechnung gemacht, was wir hier gar nicht so genau wissen wollen...).

Dieses Vorgehen ist die sogenannte "Kleinste-Quadrate-Schätzung" – oder für die Eingeweihten: "KQ-Schätzung" oder auch "Kriterium der kleinsten Quadrate".

Kleinste: wo sind die quadrierten zusammengezählten Residuen am kleinsten?

Quadrate: die Residuen werden alle erst ins Quadrat gesetzt und dann aufsummiert

Schätzung: wir können immer (bzw. in den allermeisten Fällen) nur von den Daten einer Stichprobe ausgehen, daher ist es eine Schätzung

Generell gilt: je kleiner die Residuen sind, desto besser oder genauer ist die Vorhersage! Je größer, desto schlechter bzw. ungenauer.

Ergebnis der KQ-Schätzung:

Mit der KQ-Schätzung erhält man die beiden Faktoren bzw. Koeffizienten, die die Lage der Regressionsgerade bestimmen, nämlich die sogenannten Regressionskoeffizienten a und b:

oder Achsen-Abschnitt a oder die "Konstante": Wo schneidet die Gerade die y-Achse? Inhaltlich wird a meist nicht interpretiert, würde aber den vorhergesagten Wert von y bedeuten, wenn x = 0 wäre.

oder die Steigung oder Regressionsgewicht: Wie steil ist die Gerade? b zeigt gewissermaßen den "Effekt" des Prädiktors auf das Kriterium, wobei man das nicht kausal verstehen darf!

Das Regressionsmodell bzw. die Regressionsgleichung heißt dann:

y = a + bx

Der vorhergesagte Wert setzt sich also zusammen aus: a + b mal x. 

Achtung: b kann auch negativ sein! Dann würde die Gleichung heißen: y = a - bx

Hier siehst du a und b:

regressionskoeffizienten
icon-logo-statistik

Berechnung von a & b

a und b können auch ohne die Differentialrechnung mit den folgenden Formeln berechnet werden:

formeln-regressionskoeffizienten

1. Schritt:

Kovarianz und Varianz von x berechnen (die Erklärung zur Berechnung der Varianz findest du hier). Das beinhaltet bereits das Berechnen der Mittelwerte von x und y.

2. Schritt:

b wird berechnet, indem man die Kovarianz durch die Varianz von x teilt.

3. Schritt:

a aus den zuvor errechneten Werten berechnen.

icon-logo-statistik

Praktische Vorhersage &

inhaltliche Bedeutung von a & b

Kommen wir zurück zu unserem Beispiel.

Angenommen, es wäre bei der Berechnung Folgendes herausgekommen:

a = 0.3 und b = 1.2  

Dann heißt die Regressionsgleichung:

y = 0.3 + 1.2x

In der oberen Grafik wollten wir für einen Humor-Wert von 62 den vorhergesagten Freudfähigkeits-Wert wissen und haben das grafisch gemacht. 

in "real life" macht man das jedoch mit der Gleichung, indem man für x den Wert 62 einsetzt: 

y = 0.3 + 1.2 x 62 = 74.7

Dies kann man nun mit jedem beliebigen Humor-Wert tun und erhält dann jeweils den vorhergesagten Wert für die Freudfähigkeit.

icon-logo-statistik

Inhaltliche Bedeutung von a & b

Achsenabschnit a: wird wie erwähnt normalerweise nicht interpretiert und stellt die Vorhersage des Kriteriums bei einem Wert des Prädiktors von 0 dar. 

WÖLLTEN wir das interpretieren, würde man Folgendes sagen: Wenn jemand absolut keinen Humor hat (Humor-Wert von 0), wird eine Freudfähigkeit von 0.3 vorhergesagt (also eher im sehr freudlosen Bereich).

Regressionsgewicht b: zeigt den "Effekt" des Prädiktors auf das Kriterium. Dabei gilt Folgendes:

Wenn x um eine Einheit ansteigt, verändert sich y um den Betrag b.

Praktisch bedeutet das:

Wenn der Humor-Wert um einen Punkt (das ist hier unsere Einheit) ansteigt, verändert sich y, d. h. der Wert der Freudfähigkeit, um 1.2. Hier ein paar Beispiel-Rechnungen:

y = 0.3 + 1.2 x 62 = 74.7

y = 0.3 + 1.2 x 63 = 75.9

y = 0.3 + 1.2 x 64 = 77.1

Wie du siehst, ist die Differenz zwischen den einzelnen Ergebnissen immer 1.2, was b entspricht. Ist b positiv, steigt y an; ist b negativ, verringert sich der Wert von y.

icon-logo-statistik

Wie sag' ich's Tante Erna?

Stell' dir vor, du bist bei deiner Tante Erna zu Schwarzwälder Kirschtorte und ordentlich Kaffee eingeladen. Tante Erna ist nicht die allerfirmste in Statistik, aber stets super interessiert an allem, was du so erhebst.

Also musst du ihr deine Ergebnisse in lai*innen-verständlicher Form nahebringen.

Das sähe hier so aus:

"Wir haben untersucht, ob man die Freudfähigkeit eines Menschen vorhersagen kann, wenn man weiß, wie humorvoll der- bzw. diejenige ist. Mit jedem bisschen, d. h. mit jedem Punkt mehr an Humor, steigt die Freudfähigkeit an, sogar um 1.2 Punkte. Wir haben aber noch nicht überprüft, ob dieses Ergebnis auch statistisch signifikant ist."

Mehr lässt sich ohne die Maße für die Qualität der Vorhersage und die weitergehende inferenzstatistische Auswertung nicht sagen.

icon-logo-statistik

Wie gut ist die Vorhersage?

Natürlich möchten wir auch noch wissen, wie gut die Vorhersage denn wirklich ist.

Hierfür gibt es zwei verschiedene Maße:

- R-Quadrat, auch Bestimmtheitsmaß oder Determinationskoeffizient genannt

- Standardschätzfehler

Du möchtest wissen, was das ist? Leider muss ich dich in dieser vermutlich nahezu unerträglichen Spannung lassen, denn beide Maße werden erst im nächsten Blog Post behandelt...

icon-logo-statistik

Verwirrung leicht gemacht! Die verschiedenen Bezeichnungen...

Wie du vermutlich schon leidvoll erfahren hast, gibt es in der Statistik zur allgemeinen Erbauung unterschiedliche Bezeichnungen für das Gleiche. Warum auch nicht!...

Hier ein Überblick:

bezeichnungen-regression
bezeichnungen-lineare-regression

Das Häubchen / Hütchen in obiger Tabelle wird "Dach" genannt, also z. B. "alpha Dach". 

Damit wird ausgedrückt, dass es sich nur um eine Schätzung und keinen definitiv "sicheren" Wert handelt, weil man ja meistens nur die Daten einer Stichprobe hat und damit auf alle für eine Fragestellung in Frage kommenden Personen schließen möchte. 

Daher sind die resultierenden Werte immer nur eine Schätzung, basierend auf den erhobenen Daten der jeweiligen Stichprobe.

icon-logo-statistik

Zum Abschluss: Der Steckbrief zur Regression

  • = Methode zur Vorhersage bei vorab bestehendem linearen Zusammenhang zwischen zwei Variablen
  • Ergebnis ist ein Regressionsmodell (Regressionsgleichung), mit Hilfe dessen für jeden beliebigen Wert von x (Prädiktor) der dazugehörige Wert von y (Kriterium) vorhergesagt werden kann
  • Um zur Regressionsgerade bzw. -gleichung zu kommen, wird die KQ-Schätzung verwendet
  • Das Ergebnis der KQ-Schätzung sind die Regressionskoeffizienten a und b
  • Die Regressionsgerade verläuft immer durch den Schwerpunkt des Datensatzes (= Mittelwert der beiden Variablen)
  • Die Regressionsgleichung lautet: y = a + bx
  • Gewöhnlich nur bei metrischen Variablen anwendbar
icon-logo-statistik

Meine Challenge an dich

Um das Ganze ein wenig zu festigen, würde ich vorschlagen, dass du dir einen Übungs-Datensatz schnappst (oder dir selbst ein paar Werte überlegst) und gleich mal eine einfache Regression berechnest.

Viel Spaß und Erfolg!

warten-auf-onlinekurs-inferenzstatistik

Quellen:

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Bühner, M., & Ziegler, M. (2009). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

icon-logo-statistik
Probleme beim lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

z-Transformation einfach erklärt!

z-transformation-1

Stell' dir vor, du vermutest, dass du die Queen der emotionalen Intelligenz bist. Das möchtest du natürlich gerne an mindestens einem Test überprüfen. Um sicherzustellen, dass auch wirklich verlässliche Werte herauskommen und du nicht bloß deine Tagesform abbildest, machst du nun an zwei aufeinander folgenden Tagen zwei verschiedene Tests zur emotionalen Intelligenz, um die Werte miteinander vergleichen zu können.

Diese Tests beruhen jedoch jeweils auf unterschiedlichen Mittelwerten und Streuungen. Daher stehst du jetzt vor der großen Frage: was tun mit deinen Ergebnis-Werten? Denn diese lassen sich nicht so einfach unmittelbar miteinander vergleichen. Doch es gibt Hoffnung: die z-Transformation bzw. Standardisierung wandelt die Werte in eine neue gemeinsame Einheit um und macht sie somit direkt vergleichbar!

icon-logo-statistik

Was ist die z-Transformation?

Die z-Transformation oder auch Standardisierung überführt Werte, die mit unterschiedlichen Messinstrumenten erhoben wurden, in eine neue gemeinsame Einheit: in Standardabweichungs-Einheiten. Unabhängig von den Ursprungseinheiten können zwei (oder mehr) Werte nun unmittelbar miteinander verglichen werden.

Das Ergebnis der z-Transformation sind sogenannte "z-Werte". Diese stellen Standardabweichungen vom Mittelwert dar.

Ein z-Wert von 1 bedeutet beispielsweise, dass dieser Wert eine Standardabweichung vom Mittelwert entfernt ist, also eine Standardabweichung oberhalb des Mittelwerts liegt. Ein z-Wert von -2 besagt, dass sich der Wert zwei Standardabweichungen unterhalb des Mittelwerts befindet.

Die z-Werte wohnen in der Standardnormalverteilung – eine theoretische Verteilung von Werten, die für folgende Zwecke zum Einsatz kommt:

  • für den oben genannten Vergleich von Werten 
  • um den z-Test (= Gauß-Test) auf Mittelwertsunterschiede bei bekannter Varianz durchzuführen
  • und um die Wahrscheinlichkeiten für Intervalle zu berechnen, also z. B. wie wahrscheinlich es ist, dass eine zufällig ausgewählte Person einen IQ zwischen 60 und 75 IQ-Punkten hat  

Wir beschäftigen uns hier jedoch nur mit der ersten Einsatzmöglichkeit: dem Vergleich von Werten.

Und so sieht die Standardnormalverteilung aus – der Mittelwert bzw. Erwartungswert ist immer 0 und die Standardabweichung 1:

standardnormalverteilung
icon-logo-statistik

In welchen Bereich der Statistik gehört die z-Transformation?

Die z-Transformation gehört in die Welt der deskriptiven Statistik – und dort in den Bereich des Grundwissens.

icon-logo-statistik

Wie wird die z-Transformation berechnet?

Hier ist die Formel:

formel-standardisierung

Beispiel Heinz-Rüdiger:

Heinz-Rüdiger sorgt sich, dass seine Konzentration nachgelassen habe, und sucht daher die Psychologin seines Vertrauens auf.

Diese nötigt er dazu, ihn durch zwei verschiedene Konzentrationstests zu jagen.

Die Tests basieren auf folgenden Kennwerten / Normierungen:

Test 1: μ = 50, σ = 5    Test 2: μ = 80, σ = 15

Heinz-Rüdiger erzielt in Test 1: 56 Punkte und in Test 2: 101 Punkte.

Nun könnte man meinen, dass er in Test 2 fast doppelt so gut wie in Test 1 abgeschnitten hätte. Doch diese Testergebnisse lassen sich nicht unmittelbar miteinander vergleichen!

Daher wandelt sie die Psychologin flott in z-Werte um:

berechnung-z-wert
standardisierung-berechnung

Diese z-Werte lassen sich jetzt direkt miteinander vergleichen:

Heinz-Rüdiger hat in beiden Tests ähnlich abgeschnitten und liegt jeweils über eine Standardabweichung oberhalb des Mittelwerts. 

Guckst du:

ztransformation
icon-logo-statistik
Wie sag' ich's Tante Erna?

„Heinz-Rüdiger hat in beiden Konzentrationstests leicht überdurchschnittlich abgeschnitten.“

(z-Werte von 1.2 und 1.4)

„Er muss sich also keine Sorgen um seine Konzentrationsfähigkeit machen!“  

Na bitte! Da sind wir jetzt sehr erleichtert...

icon-logo-statistik

Und Zum Abschluss noch ein Steckbrief:

icon-logo-statistik

Steckbrief z-Transformation

  • = Standardisierung
  • Umwandlung von Werten, die mit verschiedenen Messinstrumenten erhoben wurden, um sie vergleichen zu können
  • Nur bei metrischen Variablen anwendbar
  • Die neuen Werte sind z-Werte und wohnen in der Standardnormalverteilung
  • Die z-Werte sind nun unmittelbar miteinander vergleichbar
  • z-Werte stellen die Abweichung vom Mittelwert in Standardabweichungs-Einheiten dar
icon-logo-statistik

Meine Challenge an Dich

Schnapp' dir doch gleich mal ein paar Werte, erfinde die Kennwerte / Normierungen dazu (also mü und sigma) und z-transformiere, was das Zeug hält!

Anschließend pinselst du bitte eine Standardnormalverteilung und versuchst dich an einer Interpretation für Tante Erna.

Viel Spaß!

Quellen:

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Standardabweichung & Varianz berechnen leicht gemacht!

frau-standartabweichung

An Standardabweichung und Varianz kommt niemand vorbei, der oder die Statistik lernt. Sie gehören zur statistischen Grundausstattung und laufen einem immer wieder über den Weg, egal ob in der deskriptiven oder der schließenden Statistik (ich sage nur: Varianzanalyse...). 

Beide zeigen, wie weit die Daten um den Mittelwert herum streuen, wobei nur die Standardabweichung praktisch interpretierbar ist und die typische Abweichung vom "Durchschnitt" anzeigt. 

Im Folgenden lernst du, wie du diese beiden Kennwerte berechnest und interpretierst!

icon-logo-statistik

Was sind Standardabweichung & Varianz?

Die Standardabweichung ist die Wurzel aus der Varianz und somit quasi ihre "Tochter".

Beide beschreiben bzw. quantifizieren die Streuung der Werte um den Mittelwert eines Datensatzes herum, geben also Auskunft darüber, wie sehr sich die Versuchspersonen im betreffenden Merkmal unterscheiden. Sie können nur bei metrischen Daten angewendet werden – bei Intervall-, Verhältnis- oder Absolutskala (falls dir das nichts sagt, guckst du hier).

Diese Streuungs- oder Dispersionsmaße sind in jeder empirischen Studie zu finden – meist wird die Standardabweichung als Zusatzinformation zum Mittelwert angegeben. Das sieht dann folgendermaßen aus: M (SD) – z. B. 5.14 (2.36) –, wobei M der Mittelwert ist (mean) und SD das Akronym für die Standardabweichung (standard deviation).

Der große Unterschied zwischen beiden ist, dass bei der Varianz die Werte im Quadrat vorliegen und bei der Standardabweichung in den Original-Einheiten. Beispielsweise macht die Aussage "Neurotizismus im Quadrat" (= Varianz beim Merkmal Neurotizismus) im Alltag bzw. umgangssprachlich durchaus Sinn, statistisch hingegen nicht. 

Daher dient die Varianz als rechnerische Brücke, um zur Standardabweichung zu kommen, welche für die konkrete Interpretation um einiges userfreundlicher ist. Zudem stellt die Varianz die Basis für weitergehende Berechnungen dar, z. B. bei der Regression oder – man hätte es fast vermutet – der Varianzanalyse.

In welchen Bereich der Statistik gehören sie?

Standardabweichung und Varianz gehören in die Welt der beschreibenden oder deskriptiven Statistik, sind jedoch auch in der schließenden Statistik anzutreffen – sie heißen dann nur ein wenig anders: Aus s (Standardabweichung) und s Quadrat (Varianz) werden auf Populationsebene dann Sigma und Sigma Quadrat. Das Prinzip bleibt jedoch das gleiche. 

Was sagt die Standardabweichung aus?

Die Standardabweichung beschreibt bzw. quantifiziert, wie weit die Werte typischerweise um den Mittelwert eines Datensatzes herum streuen: wie groß eine typische, repräsentative Abweichung vom "Durchschnitt" ist.

Wenn in den Daten Normalverteilung vorliegt, liegen knapp 70% aller Werte zwischen einer Standardabweichung unterhalb und einer Standardabweichung oberhalb des Mittelwerts.

Die Varianz sollte, wie oben bereits beschrieben, nicht zur Interpretation verwendet werden, sondern nur als Brücke, um zur Standardabweichung zu gelangen.

icon-logo-statistik

Berechnung Varianz

Was wäre die Statistik ohne wunderschöne Formeln? Hier siehst du zunächst die Formeln, bevor ich dir erkläre, was du damit machst.

Diese Formel verwendest du, wenn du aus der Stichprobe die tatsächlich in der Population geltende Varianz berechnen willst – das ist die sog. "Stichprobenvarianz":

formel-varianz-alternative

ODER, auch gerne genommen (ist beides irgendwie hübsch), falls du einfach nur die Varianz in deiner Stichprobe berechnen willst, ohne auf die Grundgesamtheit zu schließen: "empirische Varianz"

varianz-formel

Je nach Lehrbuch findest du die eine oder die andere Variante. Wenn man durch "n - 1" teilt, kommt man näher an die in der Grundgesamtheit (= Population) geltende Varianz heran. 

So gehst du vor:

  1. Berechne den Mittelwert
  2. Ziehe von jedem Wert den Mittelwert ab und setze das Ergebnis jeweils ins Quadrat
  3. Zähle dann alle quadrierten Werte zusammen
  4. Teile anschließend durch n – 1 (oder durch n)

Um das Ganze an einem konkreten Beispiel zu veranschaulichen, nehmen wir eine Studie zum Selbstvertrauen bei Speed Dating Events, erhoben bei Erwachsenen über 18 Jahren. Das Selbstvertrauen wird zwischen 0 (gar nix vorhanden) und 30 (ergeht sich gern in Unwiderstehlichkeitsfantasien) skaliert. Hier sind die Daten: 

1,   20,   26,   14,   9,   6,   19,   22    n = 8

Der Mittelwert ist 14.63 (hier musst du für die Berechnung im Gegensatz zum Median nicht nach Größe ordnen!). Ersteren setzen wir nun ganz gepflegt in die Formel ein.

Hier ist zunächst die Variante mit "geteilt durch n – 1": 

varianz-berechnen-1

Die Varianz = 74.84 (ziemlich groß für diesen kleinen Datensatz und definitiv nicht interpretationstauglich).

Und nun die Version mit "geteilt durch n":

varianz-berechnen-2

Die Varianz = 65.48 (auch nicht viel hilfreicher...).

Wie du siehst, bringt uns das bei einer Skala von 0 – 30 für die Interpretation nicht wirklich weiter... Daher schreiten wir nun zur Standardabweichung:

icon-logo-statistik

Berechnung Standardabweichung

Wenn du die Varianz berechnet hast, ist der Löwenanteil bereits erledigt. Nun gilt es nur noch, die Wurzel aus der Varianz zu ziehen:

formel-standartabweichung-berechnen

So gehst du vor:

  1. Berechne die Varianz
  2. Ziehe die Wurzel daraus

Bei unserem Beispiel zum Selbstvertrauen bei Speed Dating Events kommt Folgendes heraus – oben geteilt durch n - 1, unten durch n:

ergebnis-standardabweichung-berechnen
ergebnis-standartabweichung-berechnen

Und was sagt uns das jetzt?

Bezogen auf eine relativ überschaubare Skala von 0 bis 30 sind diese Werte ziemlich hoch, d. h. die Versuchspersonen unterschieden sich ziemlich in ihrem Selbstvertrauen. Man kann also nicht wirklich von einer homogenen Stichprobe sprechen.

Zusammengefasst: 

Durchschnittlich hatten die Versuchs-Teilnehmer*innen einen Selbstvertrauenswert von ca. 15 (14.63), lagen also genau in der Mitte der Skala. Und typischerweise lagen die Werte zwischen 7 und 23 – ich runde hier und nehme für diese Aussage eine Standardabweichung von 8 um den Mittelwert herum, also 15  +/–  8 = 7 bzw. 23.

icon-logo-statistik

Hinter die Löffelchen schreiben:

Worauf du bei der Interpretation immer achten solltest, ist die Skala, auf der das interessierende Merkmal erhoben wurde. Es gilt also immer, die Größe der Standardabweichung ins Verhältnis zur Spannweite der Skala zu setzen.

Eine Standardabweichung von 2.2 ist bei einer Skala von 0 – 5 ziemlich hoch – und wäre bei einer Skala von 1 – 100 hingegen sehr gering.

icon-logo-statistik

Standardabweichung & Varianz mit SPSS

Beide Kennwerte lassen sich nicht exklusiv aufrufen, sondern werden bei verschiedenen Varianten der deskriptiven Statistiken mitgeliefert. Und wie so häufig bei SPSS, führen mehrere Wege zum Glück.

Geh' entweder auf "Analysieren", "Deskriptive Statistiken", "Häufigkeiten", dann auf den Button "Statistiken" und kreuz' beide Streuungsmaße an.

Oder du wählst den Weg über "Analysieren", "Deskriptive Statistiken", "Deskriptive Statistik". Hier wird die Standardabweichung bereits standardmäßig mit ausgeworfen. Wenn dich jedoch auch die Varianz interessiert, musst du im Eingabefenster für die Variablen bei "Optionen" einen Haken setzen.

Die umfassendste Auswertung erhältst du, wenn du auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse" gehst. Ein Beispiel dafür findest du hier.

Zum Abschluss noch ein kleiner Steckbrief:

icon-logo-statistik

Steckbrief Standardabweichung & Varianz

  • Beide beschreiben die Streuung um den Mittelwert herum
  • Gehören zur deskriptiven sowie zur schließenden Statistik
  • Nur bei metrischen Skalen anwendbar!
  • Die Varianz ist aufgrund der quadratischen Einheiten nicht zur Interpretation geeignet
  • Die Standardabweichung sagt aus, wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden.
  • Beide reagieren sehr sensitiv auf Ausreißer – in diesem Fall nur vorsichtig interpretieren oder nicht verwenden
  • Können in SPSS auf verschiedene Weisen bei den "Deskriptiven Statistiken" aufgerufen werden
icon-logo-statistik
Wie wär's mit einem virtuellen Fleißbild?

Na, wie sieht's aus – reicht die Motivation noch für eine unmittelbare Anwendung des Gelesenen?

Dann schnapp' dir einen kleinen Datensatz und rechne wild drauflos – und du erhältst ein virtuelles Fleißbild von mir.

Und nicht vergessen: Regelmäßig Belohnen!

Der Spaßfaktor von Statistik hält sich meist in eng umschriebenen Grenzen. Daher sollte man sich's beim und nach dem Lernen ganz arg gut gehen lassen. Zum Beispiel so:

süßes-nach-dem-lernen-varianz
icon-logo-statistik

WIE WÄR'S MIT STATISTIK-NACHHILFE?

Oder mit Gruppen-nachhilfe, einem Video-Kurs Inferenzstatistik & Crashkursen?

fragen-statistik-lernen-maskottchen-1

Klickst du...

icon-logo-statistik

Median verständlich erklärt

studierende-median

Median oder Mittelwert – das ist hier die Frage! Wann nimmt man was? Und was ist der Median überhaupt? Wie wird er berechnet? Für die Eiligen gibt's zunächst die Kurzversion (quasi ein Spoiler, bevor's überhaupt mit dem Artikel losgeht...): 

Der Median oder auch Zentralwert ist derjenige Wert, der in einer nach Größe geordneten Reihe von Werten genau in der Mitte liegt.

Stell' dir vor, du schreibst alle in einem Datensatz vorkommenden Werte nach Größe geordnet längs auf ein Blatt Papier, von Rand zu Rand. Anschließend faltest du das Papier genau in der Mitte: dann ist der Wert, der auf dem Knick liegt, der Median.

icon-logo-statistik

Was ist der Median?

Der Median unterteilt einen nach Größe geordneten Datensatz in zwei Hälften: mindestens 50% der Daten sind kleiner als (oder gleich) und mindestens 50% sind größer als (oder gleich) dem Median.

Es ist derjenige Wert, der genau in der Mitte des Datensatzes liegt – daher der Name "Zentralwert". Er ist ein Maß für die zentrale Tendenz.

Bei einem ungeraden Datensatz ist der Zentralwert direkt im Datensatz enthalten, bei einem ungeraden Datensatz wird er aus den beiden in der Mitte befindlichen Werten gemittelt, also sozusagen künstlich erschaffen.

Weitere alternative Bezeichnungen sind 2. Quartil (Q2) und das 50%-Quantil.

icon-logo-statistik

In welchen Bereich der Statistik gehört er?

Der Zentralwert gehört in die Welt der beschreibenden oder deskriptiven Statistik. Bei der Deskriptivstatistik geht's darum, die in einem Datensatz enthaltene Information auf wenige Kennwerte zu reduzieren und zudem grafisch darzustellen. Es werden im Gegensatz zur Inferenzstatistik keine Schlüsse auf die dazugehörige Grundgesamtheit gezogen, sondern nur beschrieben, was in einer bestimmten Stichprobe zu finden ist.

Der Median gehört zu den Lagemaßen, die den Schwerpunkt eines Datensatzes beschreiben.

icon-logo-statistik

Was sagt der Median aus?

Ehrlich gesagt lässt sich hier nicht so wahnsinnig viel hineininterpretieren. Nur dies: bis zu diesem Punkt haben sich 50% aller Werte angesammelt und 50% liegen darüber. That's it.

icon-logo-statistik

Wann nimmt man ihn her?

Wenn es Ausreißer oder Extremwerte im Datensatz gibt und der Mittelwert nicht verwendet werden sollte – oder wenn ordinalskalierte Daten vorliegen. Man verwendet den Median, um die Mitte eines Datensatzes bestimmen bzw. quantifizieren zu können. 

Achtung: Bei ordinalskalierten Daten wie z. B. Rangplätzen und geradem Datensatz ist der Median nicht eindeutig festzulegen: Wenn es beispielsweise in einem Schönheitswettbewerb den 1., 2., 3. und 4. Platz gibt, läge der Median rechnerisch zwischen dem 2. und dem 3. Platz. Das wäre dann der 2.5te Platz, den es jedoch nicht gibt!

icon-logo-statistik

Median ohne Formeln

Die Berechnung des Zentralwerts ist recht einfach, wird jedoch wie üblich in der Statistik etwas kompliziert dargestellt. Wie du gleich sehen wirst, gibt es zwei Varianten: einmal für einen ungeraden und einmal für einen geraden Datensatz.

Als Beispiel nehmen wir eine Erhebung zur Angst, etwas zu verpassen (FOMO = Fear of Missing Out), erhoben bei Jugendlichen zwischen 14 und 18 Jahren. FOMO wird hier zwischen 0 (keinerlei Angst, tiefenentspannt) und 100 (Stirbt gefühlt, wenn nicht alle Social Media Feeds minütlich gecheckt werden) skaliert. Dies sind die Daten: 

Ungerader Datensatz: 23, 56, 87, 30, 28, 45, 66, 18, 49, 48, 55   n = 11

Gerader Datensatz: 23, 56, 87, 30, 28, 45, 66, 18, 49, 48    n = 10

Ungerader Datensatz

Auch ohne Formeln ist der erste Schritt immer, die Daten nach Größe zu ordnen!

Danach schaust du einfach, welcher Wert genau in der Mitte liegt: hier ist es die 48. Bingo. 

median-ohne-formeln

gerader Datensatz

Hier musst du einfach nur die beiden in der Mitte stehenden Werte mitteln – et voilà!

zentralwert-ohne-formeln
icon-logo-statistik

Berechnung des Medians mit Formeln

Und nun das Ganze mit Formeln für die beiden Varianten. Die tiefergestellten Klammern rechts neben den x zeigen Positionsnummern an, also an welcher Stelle ein bestimmter Wert in einer nach Größe geordneten Datenreihe steht.

formel-median
icon-logo-statistik

Berechnung bei ungeradem Datensatz

median-ungerader-datensatz
1. Ordne nach Größe
datenreihe-median
2. Rechne die Positionsangabe in der Klammer aus
rechenweg-zentralwert-ungerade
3. Welcher Wert befindet sich an dieser Position?
Das ist der Median!
median-berechnen
icon-logo-statistik

Berechnung bei geradem Datensatz

formel-median-gerader-datensatz
1. Ordne nach Größe
gerade-datenreihe-zentralwert
2. Rechne die Positionsangaben in den Klammern aus
rechenweg-median
rechenweg-zentralwert
3. Welcher Werte befinden sich an diesen Positionen?
datensatz-zentralwert
4. Setze diese Werte in die Formel ein und du bekommst den Wert des Medians
ergebnis-median

Zusammengefasst: 

Bei ungeraden Stichproben rechnest du eine Position aus und schaust dann den Wert nach.

Bei geraden Stichproben wechselst du von der Positionsberechnung zum Rechnen mit „richtigen“ Werten und bekommst als Ergebnis gleich den Wert des Medians heraus (und nicht seine Position).

icon-logo-statistik

Median mit SPSS

Den Median kannst du nicht exklusiv aufrufen, sondern bekommst ihn bei der Explorativen Datenanalyse mitgeliefert.

Dazu gehst du auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du die dich interessierenden Variablen aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". Ein Beispiel dafür findest du hier.

Zu guter Letzt noch eine kleine Kurz-Übersicht:

icon-logo-statistik

Steckbrief Median

  • Der Median ist derjenige Wert, der einen Datensatz in 50% kleinere und 50% größere Werte unterteilt
  • Gehört zur Welt der deskriptiven Statistik
  • Anwendbar ab Ordinalskala aufwärts
  • Bei Ordinalskala und geradem n nicht eindeutig definiert
  • Wenn Ausreißer vorliegen, ist er zur Interpretation besser geeignet als der Mittelwert (Letzterer reagiert sehr sensibel auf Ausreißer und Extremwerte)
  • Ist in SPSS in der Explorativen Datenanalyse enthalten.
  •  Der Median / Zentralwert ist der Wert bzw. Strich, der in der Mitte der Box des Boxplots liegt
icon-logo-statistik

geschafft!

Turning insight into action…

Wie wär's – reicht die Motivation noch für eine unmittelbare Anwendung des Gelesenen? Dann könntest du zum Beispiel die oben angegebenen Werte bei SPSS eingeben und die Explorative Datenanalyse rechnen lassen. 

Oder du überlegst dir eine fiktive Untersuchung nebst Zahlen und rechnest wild drauflos. 

Variante 3: Such' dir Übungsaufgaben – entweder im Internet oder in deinen Lehr- bzw. Übungsbüchern. 

Oder aber du machst nichts... auch gut.

Aber vorher gilt wie immer: Belohnen!

Statistik ist bekanntlich nicht so lustig. Daher sollte man sich's nach dem Lernen (oder auch währenddessen) unbedingt gut gehen lassen...

heiße-schokolade
icon-logo-statistik
WIE WÄR'S MIT STATISTIK-NACHHILFE?
ODER MIT GRUPPEN-NACHHILFE, EINEM VIDEO-KURS INFERENZSTATISTIK & CRASHKURSEN?
fragen-statistik-lernen-maskottchen-1

Klickst du...

icon-logo-statistik

Boxplots leicht gemacht!

boxplot-schuljahr

Wilde Zeichnungen von "Schachteln", auch Boxplots genannt, begegnen dir meist bereits zu Beginn deiner Statistik-Karriere. Sie gehören in die bunte Welt der deskriptiven, beschreibenden Statistik, in der es darum geht, die Informationen, die in einem Datensatz enthalten sind, auf einige wenige Kennwerte zu reduzieren, also sozusagen die Essenz herauszuarbeiten.

Nun kann man das zum einen rechnerisch machen, z. B. mit dem Mittelwert, Varianz, Median etc., aber zudem auch grafisch. Und zu diesen grafischen Darstellungen der enthaltenen Informationen gehört der Boxplot, mit dem sich praktischerweise gleichzeitig sowohl die zentrale Tendenz eines Datensatzes als auch die Streuung darstellen lässt.

Wissenswertes rund um den Boxplot

Wie bereits eingangs erwähnt, kannst du mit dem Boxplot in einer einzigen Grafik die zentrale Tendenz sowie die Streuung darstellen. Die Streuung sagt dir, wie weit die Daten um den Zentralwert herum verteilt sind bzw. wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden. Der verwendete zentrale Wert ist hier jedoch nicht der Mittelwert, sondern der Median, also derjenige Wert, der einen nach Größe geordneten Datensatz in zwei Hälften unterteilt: in 50% kleinere und 50% größere Werte.

Ein weiterer großer Vorteil des Boxplots ist, dass man sofort erkennen kann, ob es Ausreißer in einem Datensatz gibt, also Werte, die weit ab von den übrigen Werten liegen. Da der Median, der dem Boxplot zugrunde liegt, deutlich robuster gegenüber Ausreißern und Extremwerten als der Mittelwert ist, können diese mit  dem Boxplot gut visualisiert werden. Häufig stellt sich dann die Frage, wie mit diesen Werten zu verfahren sei, d. h. ob sie im Datensatz belassen oder möglicherweise entfernt werden sollen – Letzteres jedoch nur, wenn es triftige Gründe dafür gibt, wie z. B. dass eine Versuchsperson nicht wirklich mitmachen wollte und sich nicht anstrengte. Ein weiterer Grund wären Eingabefehler.

Die Voraussetzung, um einen Boxplot berechnen zu können, ist eine Variable, die mindestens Ordinalskalen-Niveau hat. Das bedeutet, dass bei Merkmalen wie Geschlecht, Nationalität oder Farbpräferenz kein Boxplot berechnet werden kann (Infos zu den Skalenniveaus findest du hier).

Was hat es mit der Box auf sich? Die Box, die der Name Boxplot beinhaltet, zeigt an, in welchem Bereich sich die mittleren 50% aller Werte befinden. Das untere Ende der Box ist derjenige Punkt in den Daten, an dem sich die unteren 25% angesammelt haben (25%-Perzentil). Der Strich in der Mitte ist der Median (bis hierher haben sich 50% angesammelt, das 50%-Perzentil) und das Ende der Box kennzeichnet den Punkt, an dem sich 75% aller Werte angesammelt haben (75%-Perzentil).

Das untere Ende der Box wird als Q1 bezeichnet, der Median als Q2 und das obere Ende als Q3. Die Länge der Box bzw. Differenz zwischen Q3 und Q1 wird Interquartilsabstand oder IQR genannt (aus dem Englischen: interquartile range).

Übrigens wird der Boxplot manchmal auch als Box-Whisker-Diagramm bezeichnet.

icon-logo-statistik

Berechnung des Boxplots

Überblick:

1. Berechne den Median, der den Datensatz in zwei Hälften unterteilt

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

icon-logo-statistik

Und nun die Ausführliche Schriftliche Anleitung:

Unser Beispiel: Eine Psychologin interessiert sich für die Reaktionszeit von Kindern zwischen 6 und 12 Jahren. Diese sollen im Labor sofort die Enter-Taste am Computer drücken, sobald ein rosa-flauschiges Glitzer-Einhorn erscheint. Die Ergebnisse der Versuchspersonen sind in Millisekunden angegeben.

1. Berechne den Median

Ordne als erstes die Zahlen nach Größe.

Nun gibt es zwei Varianten: gerade und ungerade Anzahl an Werten im Datensatz.

Bei einer geraden Anzahl an Werten musst du nach dem Ordnen die beiden genau in der Mitte des Datensatzes liegenden Werte mitteln, also einen neuen Wert berechnen, der so gar nicht im Datensatz vorkommt.

Hier sind die Ergebnisse unserer Probanden:

5    7    9    12    13    13    14    30

Wir haben nun acht Werte. Die beiden Werte, die in der Mitte liegen (an Position 4 und 5), werden gemittelt, d. h. zusammengezählt und dann durch 2 geteilt, was 12.5 ergibt. 12.5 ist hier also der Median.

Guckst du: 

median-gerader-datensatz

Bei einer ungeraden Anzahl an Werten ist der Median direkt im Datensatz enthalten und derjenige Wert, der genau in der Mitte des nach Größe geordneten Datensatzes liegt:

Beispiel von oben:

5   7   9   12   13   13    14   16  30

median-ungerader-datensatz

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

Jetzt berechnest du von den beiden durch den Median entstehenden Datenhälften jeweils wiederum den Median.

Hier sind sich die Statistiker nicht ganz einig, wie bei einem Datensatz mit ungerader Anzahl von Werten zu verfahren ist: sollte man den Median jeweils zu den beiden Datensatz-Hälften dazunehmen oder rauslassen?

Beides ist legitim – richte dich einfach danach, was an deiner Hochschule gelehrt wird. Die beiden Varianten sehen so aus:

boxplot-ungerader-datensatz
ungerader-datensatz-boxplot

Beim obigen Datensatz mit einer geraden Anzahl von Werten:  

5     7     9    12    13     13    14    30

Hier wären die Mediane der beiden Datensatz-Hälften Folgende:

5   7   9   12    – Median bzw. Q1 ist 8  

13   13   14   30    – Median bzw. Q3 ist 13.5

boxplot-quartile-gerader-datensatz

Wir machen nun mit diesem geraden Datensatz weiter und können jetzt IQR oder die Länge der Box berechnen. Dazu ziehen wir von Q3 das Q1 ab:

13.5 (Q3) – 8 (Q1) = 5.5 (IQR)


3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

Bei unserem Beispiel bietet sich eine Skalierung von 0 bis knapp über 30 an. Zeichne nun Q1 (8), den Median (12.5)  sowie Q3 (13.5) ein und verbinde das ganze mit einer hübschen Box. Ob du die Box liegend oder aufrecht malst, ist vollkommen egal. Das Ganze sieht dann so aus:

box-boxplot


4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

Die sog. "Whisker" (aus dem Englischen: whisker = Schnurrhaare) sind die Striche, die aus der Box auf beiden Seiten (meist) herausragen (es gibt auch Boxplots, bei denen nur einer oder keiner der beiden Whisker herausragt). Grundsätzlich gilt: Die Whisker werden einmal am unteren Ende der Box nach unten und einmal am oberen Ende der Box nach oben eingetragen (oder nach links und rechts – je nachdem, ob du den Boxplot aufrecht oder liegend zeichnest).

Berechnung:

Unser IQR ist 5.5. Wenn wir das mit 1.5 multiplizieren, ergibt das

5.5 x 1.5 = 8.25

Warum man die Länge der Box nun gerade mit 1.5 multiplizieren muss, könnte man, so man wollte, mühsam mathematisch herleiten – aber das wollen wir definitiv nicht! Daher nimm' das bitte einfach als gegeben hin und sieh' es als eines der vielen Mysterien in der Welt der Statistik an...

Achtung: IQR mal 1.5 ist die POTENZIELLE, d.h. grundsätzlich mögliche Maximallänge der Whisker und meist nicht die tatsächliche Länge! 

POTENZIELL könnten die Whisker in unserem Beispiel so aussehen:

Das untere Ende der Box ist 8. Von dort aus 8.25 nach unten wären:  8 – 8.25 = -0.25

Das obere Ende der Box ist 13.5. Von dort aus 8.25 nach oben wären:  13.5 + 8.25 = 21.75

D. h., die Whisker würden POTENZIELL im unteren Bereich der Skala bis -0.25 gehen und im oberen Bereich bis 21.75, hier als gestrichelte grüne Linien gezeichnet:

whisker-potenziell
icon-logo-statistik

GUT zu wissen:

Die whisker werden nur bis zu denjenigen datenPunkten gezeichnet, die sich noch innerhalb der potenziellen maximalen Whiskerlänge befinden!

Werte, die außerhalb dieser potenziellen Länge liegen, werden als Ausreißer oder Extremwerte eingezeichnet!

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

Das wären in unserem Beispiel mit    5     7     9    12    13     13    14    30   die 5 im unteren und die 14 im oberen Bereich. Guckst du:

boxplot

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

Ausreißer sind Werte, die etwas außerhalb der potenziellen maximalen Whiskerlänge liegen. Bei SPSS werden diese gewöhnlich mit Kringeln eingezeichnet.

Extremwerte sind Werte, die mehr als drei Interquartilsbereiche außerhalb der Box und somit sehr weit ab von allen anderen liegen. Diese werden gewöhnlich mit Sternchen gekennzeichnet.

In unserem Beispiel gibt es einen Ausreißer von 30 Millisekunden. Diese Versuchsperson brauchte also besonders lange, bis sie nach Auftauchen des rosa-flauschigen Glitzer-Einhorns auf die Enter-Taste drückte. Sind diese 30 Millisekunden nun als Extremwert zu bezeichnen? Berechnen wir das doch mal:

Der Wert von 30 Millisekunden wäre ein Extremwert, wenn er 3 IQRs vom Ende der Box entfernt läge, also 3 mal 5.5 (IQR) = 16.5 Millisekunden vom oberen Ende der Box entfernt.

Die Box endet bei 14. Zählen wir nun 16.5 dazu, erhalten wir 30.5. Ab hier würde der Bereich der Extremwerte beginnen. Unser Wert 30 liegt knapp darunter, d. h. es ließe sich streiten, ob das noch als Ausreißer oder schon als Extremwert anzusehen ist. Technisch gesehen ist es NOCH ein Ausreißer, also malen wir ihn mit einem Kringel ein und haben jetzt endlich unseren fertigen Boxplot!

boxplot-mit-ausreisser
chamaeleon-bambus-spss
icon-logo-statistik

Interpretation von Boxplots

  • Du kannst an der Lage des Medians innerhalb der Box sowie den Längen der Whisker erkennen, ob die Werte des Datensatzes symmetrisch oder aber ungleich verteilt sind:
  • Bei symmetrischen Verteilungen liegt der Strich genau in der Mitte der Box.
  • Bei rechtssteilen Verteilungen ist der Strich nach oben oder rechts hin verschoben und bei linkssteilen nach unten bzw. links: viele Werte drängen sich bei diesen Verteilungen in einem Bereich, wohingegen der Rest weiter verteilt ist. 
  • Das lässt sich an unserem Boxplot mit den Werten   5     7     9    12    13     13    14   30  schön erkennen: der Median ist nicht in der Mitte der Box, sondern nach oben bzw. rechts verschoben. Da zwischen dem Median und dem oberen (Q3) bzw. unteren Ende der Box (Q1) jeweils 25% aller Werte liegen, bedeutet ein nach rechts verschobener Strich hier, dass zwischen dem Median von 12.5 und dem Q3 von 13.5 ca. 25% aller Werte liegen (recht gedrängt), wohingegen weitere 25% aller Werte zwischen 8 (Q1) und 12.5 (Median) liegen, also weiter verteilt. Dies ist somit ein Beispiel für eine rechtssteile Verteilung.
  • Die Positionierung der Box auf der Achse zeigt dir, in welchem Bereich deiner Skalierung die mittleren 50% aller Werte liegen. Bei unserem Datensatz wäre das zwischen 8 und 13.5. Somit wiesen 50% aller Kinder Reaktionszeiten auf, die zwischen 8 und 13.5 Millisekunden lagen.
  • Ein breiter Interquartilsbereich, also eine breite Box, zeigt an, dass die Streuung groß ist und sich die Versuchspersonen im untersuchten Merkmal sehr unterscheiden. Ein kleiner IQR bedeutet hingegen, dass sich alle in ihrer Merkmalsausprägung recht ähnlich sind. Welcher Fall in unserem Beispiel zutrifft, müsste anhand der Forschungsliteratur überprüft werden: welche Werte sind bei Reaktionszeiten bei Kindern typisch? Daher lässt sich nicht zuletzt aufgrund des sehr kleinen Datensatzes (noch) keine Aussage treffen.
  • Die Länge der Whisker ist ebenfalls relevant: lange Whisker deuten auf eine breitere Verteilung hin, kurze auf eine schmale bzw. spitzgipflige.
  • Der kurze rechte Whisker in unserem Beispiel unterstreicht noch einmal die Aussage einer rechtssteilen Verteilung – hier laufen die Werte nicht gemächlich nach rechts bzw. oben hin aus, sondern fallen gewissermaßen jäh ab (und es gibt einen Ausreißer mit 30 Millisekunden). Auf der linken, unteren Seite ist der Whisker hingegen länger: die Werte ziehen sich also weiter in den unteren Bereich hinein.
chamaeleon-bambus-spss
icon-logo-statistik

Boxplot mit SPSS

Um den Boxplot bei SPSS zu erstellen, gehe nach Aufrufen eines von dir ausgewählten oder erstellten Datensatzes auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du dann die interessierende Variable aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". Der Boxplot wird automatisch im Zuge der gesamten Auswertung der Explorativen Datenanalyse generiert, d. h. du musst ein wenig nach unten scrollen, bis er unterhalb des Stamm-Blatt-Diagramms erscheint.

Ein weiterer Weg, um den Boxplot aufzurufen, ist über "Grafik", "Alte Dialogfelder", "Boxplot".

Und so sieht der von SPSS erstellt Boxplot für unseren Datensatz aus. SPSS gibt übrigens praktischerweise bei den Ausreißern und Extremwerten immer die Nummer der dazugehörigen Versuchsperson an, was hier das Kind Nr. 8 war.

boxplot-spss
chamaeleon-bambus-spss
icon-logo-statistik
Probleme beim Lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

icon-logo-statistik

Geschafft!

Na bitte, geht doch! Wenn du bis hierher gelesen hast – Gratulation! 

Und jetzt wäre es vielleicht ganz gut, im Sinne von "Turning insight into action" das Ganze gleich mal mit einer anderen Variablen in diesem oder einem anderen Datensatz anzuwenden...  

Aber vorher ist definitiv Zeit für eine wohlverdiente Belohnung, um wieder Motivation zu tanken und das Lernen von Statistik etwas angenehmer zu gestalten! 

peanut-butter-cups
>