Statistik für Psychologie endlich einfach und verständlich erklärt!

Category Archives for Deskriptive Statistik meistern

Vorhersage leicht gemacht: einfache lineare Regression

Wer hätte es gedacht: selbst in der Statistik gibt es die sagenumwobene Glaskugel zur Prognose menschlichen Erlebens und Verhaltens – die lineare Regression! Kurz & knackig: wenn du einen linearen Zusammenhang zwischen zwei Variablen hast, kannst du mit der einen Variable die andere (mehr oder weniger gut) vorhersagen. Das Zauberwort heißt hier VORHERSAGE! Wenn du das irgendwo liest, geht es in in den allermeisten Fällen um die Regression.

Inhaltsverzeichnis

Was ist die einfache lineare Regression?

In welchen Bereich der Statistik gehört sie?

Typische Fragestellungen

Voraussetzungen

Vorgehen Regression in a nutshell

Wie findet man die optimale Gerade?

Die KQ-Schätzung

Berechnung von a & b

Praktische Vorhersage &

inhaltliche Bedeutung von a & b

Wie sag' ich's Tante Erna?

Wie gut ist die Vorhersage?

Verwirrung leicht gemacht! Die verschiedenen Bezeichnungen...

Zum Abschluss: Der Steckbrief zur Regression

Meine Challenge an dich

Was ist die einfache lineare Regression?

= Statistische Methode zur Vorhersage bei vorab bestehendem linearen Zusammenhang zwischen zwei metrischen Variablen

BEISPIEL:

Angenommen, du stellst in einer Studie einen linearen Zusammenhang (siehe unten) zwischen Humor und Freudfähigkeit fest. Nun könntest du dir die Frage stellen, ob vielleicht das Ausmaß an Humor das Ausmaß an Freudfähigkeit vorhersagen könnte.

Du schnappst dir eine der beiden Variablen, z. B. den Humor, und machst sie zur vorhersagenden Variable (= Prädiktor) und die andere deklarierst du als die vorherzusagende Variable (= Kriterium).

Als Ergebnis erhältst du dann ein Modell (= eine Gleichung – mehr dazu weiter unten), mithilfe dessen du für jeden beliebigen Wert an Humor den entsprechenden Freudfähigkeits-Wert vorhersagen kannst.

Quasi im Sinne von: sag' mir dein Ausmaß an Humor – und ich sage dir, wie freudfähig du vermutlich bist!

Die einzelnen Bestandteile in "einfache lineare Regression":

EINFACHE: EINE metrische Variable (= Merkmal) sagt eine andere vorher

LINEARE: zwischen den beiden Variablen muss ein LINEARER ZUSAMMENHANG bestehen. Das ist ein Zusammenhang, der durch eine Gerade darstellbar ist und nicht z. B. U-förmig oder umgekehrt U-förmig aussieht, denn bei kurvilinearen Zusammenhängen funktioniert dieses Verfahren nicht!

Für die Berechnung einer linearen Regression brauchen wir also Zusammenhänge, die so aussehen:

- mehr oder weniger geordnete Punktewolke, die von links unten nach rechts oben geht = positiver Zusammenhang

ODER

- mehr oder weniger geordnete Punktewolke, die von links oben nach rechts unten geht = negativer Zusammenhang

Guckst du hier für Beispiele: 1. Bild: positiver, 2. Bild: negativer linearer Zusammenhang

REGRESSION: kommt aus dem Lateinischen "regredi": zurückkehren, zurückkommen. Die Ausprägung der einen Variable wird auf die andere zurückgeführt.

ZIEL DER einfachen linearen REGRESSION:

Ein Modell zu erhalten, mit dem man für jeden beliebigen Wert der einen Variablen den dazugehörigen Wert der anderen vorhersagen kann!

Hinter die Löffelchen schreiben:

Bei der Regression darf man NICHT von einem kausalen Zusammenhang sprechen!

Auch wenn die Interpretation oft so klingt.

Die Vorhersage ist stochastisch, d. h. vom Zufall abhängig, und NICHT deterministisch!

Deterministisch wäre eine Aussage wie: IMMER wenn jemand einer Humor-Wert von 56 hat, wird sie / er einen Freudfähigkeits-Wert von 63 haben.

In welchen Bereich der Statistik gehört sie?

Deskriptive Statistik (Zusammenhänge):

Wenn die Regression rein beschreibend eingesetzt wird und NICHT auf die dazugehörige Grundgesamtheit verallgemeinert werden soll, gehört sie zur deskriptiven bzw. beschreibenden Statistik.

ODER:

Inferenzstatistik – Welt der Zusammenhänge:

Wenn die Regression dafür eingesetzt wird, um auf die dazugehörige Grundgesamtheit (= Population) zu schließen, zählt man sie zur schließenden oder Inferenzstatistik.

In diesem Blog Post wird nur die beschreibende Variante behandelt!

Die inferenzstatistische Auswertung mit SPSS findest du hier.

Typische Fragestellungen

Lässt sich das Einkommen aus dem IQ vorhersagen?

Sagt das Ausmaß an Vorbereitungszeit den Klausurerfolg voraus?

Kann man mit der Anzahl an konsumierten Zigaretten die Lebensdauer vorhersagen?

Ist die Hochsensibilität ein Prädiktor für Empathie?

Voraussetzungen

Linearer Zusammenhang zwischen den beiden Variablen

y : mindestens intervallskaliert & normalverteilt

Werte der Versuchspersonen sind unabhängig voneinander

Normalverteilte Fehler

Homoskedastizität: die Residuen (siehe unten) sollen alle ähnlich um die Regressionsgerade streuen

Vorgehen Regression in a nutshell

Nachfolgend siehst du anhand des obigen Beispiels, wie eine Regression "entsteht":

Du hast einen positiven linearen Zusammenhang zwischen Freudfähigkeit und Humor festgestellt. Das würde bedeuten: je freudfähiger jemand ist, desto mehr Humor hat er oder sie – und umgekehrt: je humorvoller, desto freudfähiger. Oder: je weniger humorvoll, desto weniger freudfähig (und umgekehrt).

Beide metrische Variablen (Intervallskala) wurden auf einer Skala von 0 bis 100 erfasst, 0 = gar nicht vorhanden und 100 = extrem ausgeprägt.

Nun willst du untersuchen, ob bzw. wie du mit dem Humor die Freudfähigkeit vorhersagen kannst.

Wie oben bereits erwähnt, wird hier nicht auf die inferenzstatistische Auswertung eingegangen – das wäre dann die Beantwortung der Frage, ob der Humor ein signifikanter Prädiktor für die Freudfähigkeit ist. Wir beschäftigen uns hier einfach damit, ein Vorhersagemodell zu basteln, ohne auf statistische Signifikanz zu prüfen (das ist die deskriptivstatistische Auswertung).

Linearer Zusammenhang zwischen beiden Variablen

Zuordnung: wer ist Prädiktor, wer Kriterium?

Meist ist es klar, welche Variable welche vorhersagt. Es gibt aber auch Fälle, wo das beliebig austauschbar ist.

Die vorhersagende Variable, der Prädiktor, wird nun auf die x-Achse gepackt, die vorhergesagte (Kriterium) auf die y-Achse.

Gerade finden, zu der die Abstände der Punkte am geringsten sind

Um ein Regressions-Modell zur Vorhersage zu erhalten, nutzen wir die Daten der Stichprobe und suchen diejenige Gerade, die so in der Punktewolke liegt, dass die Abstände aller Datenpunkte zur Geraden am kleinsten sind. Weiter unten folgt die genauere Erklärung zu diesem Schritt.

Finales Modell – nur noch die Gerade!

Das ist der Schritt, der viele Studierende verwirrt: am Ende bleibt nur noch die Regressionsgerade übrig, die wir nun zur Vorhersage nutzen können. Wie das geht, zeige ich dir im Bild bei "5.".

Das bedeutet, dass wir die Daten aus der Stichprobe nur dazu verwenden, um die optimale Gerade (= optimales Vorhersagemodell) zu finden. Sobald wir die Gerade haben, interessieren uns die ursprünglichen Datenpunkte nicht mehr!

Übrigens: Die Regressionsgerade verläuft immer durch den Mittelwert von x und y

Beispiel für die Vorhersage

Wenn du die Gerade hast, kannst du für jeden beliebigen Wert des Prädiktors den dazugehörigen Wert im Kriterium vorhersagen.

In unserem Beispiel könnten wir also ganz wild für jeden Humor-Wert zwischen 0 und 100 eine Vorhersage für den dazugehörigen Freudfähigkeitswert derselben Person treffen.

Im "echten Leben" wird das natürlich alles berechnet. Ich zeige dir das jetzt erst einmal zum besseren Verständnis nur grafisch, bevor wir uns anschließend beherzt in die Berechnung stürzen.

Was wir nun wissen wollen, ist, welcher Freudfähigkeits-Wert für jemanden mit einem leicht überdurchschnittlich ausgeprägten Humor (Wert von 62) vorhergesagt wird.

Dazu geht man auf der x-Achse bei 62 senkrecht nach oben, bis man die Gerade erreicht.

Hier macht man eine harte Linkskurve, wandert waagrecht bis zur y-Achse und liest dort den Wert ab. Das ist der vorhergesagte Freudfähigkeits-Wert – hier: 74,7, also ziemlich freudfähig (bei der Interpretation immer die dazugehörige Skala im Auge haben!).

Guckst du:

brauchst du hilfe beim lernen von statistik?

Dann komm' zu Statistik-gym, dem Online-Fitnessstudio für Statistik,

das dich fit für die Prüfung macht!

Eine Mitgliedschaft wie bei Netflix oder Spotify, nur eben für Statistik im Bachelor,

die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!

Darin bekommst du:

Eine monatlich wachsende Bibliothek von Videos & Audios
Live Frage- & Antwort-Sessions
Eine Roadmap, mit der du zielsicher durch den Dschungel der Statistik geführt wirst
Alles rund um Mindset, Motivation & Lerntechniken
Downloads wie Übungsblätter, Steckbriefe & Probeklausuren
Webinare / live Teachings
Du kannst jederzeit in der Community Fragen stellen & dich mit anderen austauschen!

Und dann macht Statistik vielleicht sogar Spaß!

Klingt gut? Dann klick' hier:

ich will zu statistik-gym!

Wie findet man die optimale Gerade?

Die KQ-Schätzung

Die optimale Gerade liegt so in der Punktewolke, dass die Abstände zwischen den Datenpunkten aus der Stichprobe zur Geraden am kleinsten sind – parallel zur y-Achse, nicht im Lot zur Geraden!

Diese Abstände heißen Residuen (Einzahl: Residuum) oder auch Vorhersagefehler. Meist werden sie als "e" für "error" bezeichnet.

Der Punkt, wo das Residuum auf der Geraden auftrifft, ist der vorhergesagte Wert, meist als "y Dach" bezeichnet, mit einem schicken Häubchen drauf. Nähere Erklärung siehe unten bei den verschiedenen Bezeichnungen.

Der Datenpunkt aus der Stichprobe ist y.

Die Residuen werden berechnet, indem man vom Wert von y den vorhergesagten Wert y Dach abzieht – siehe Grafik.

Die Residuen / Abstände zur Geraden sind oberhalb der Geraden positiv und unterhalb negativ und summieren sich immer zu 0 auf. Daher hinter die feinen Löffelchen schreiben:

Die Summe der Residuen ist stets 0!

Nun will man aber genau diese Abstände verwenden, um die optimale Gerade zu finden.

Daher macht man etwas ganz Schlaues: man zählt die Residuen nicht einfach nur zusammen, denn das würde ja 0 ergeben, sondern quadriert alle Residuen, bevor man sie zusammenzählt. Dadurch wird das negative Vorzeichen entfernt und man erhält immer einen positiven Wert!

Jetzt schaut man, wo die Gerade liegen muss, damit dieser Wert am kleinsten ist (das wird von den Statistik-Programmen mit der sogenannten Differentialrechnung gemacht, was wir hier gar nicht so genau wissen wollen...).

Dieses Vorgehen ist die sogenannte "Kleinste-Quadrate-Schätzung" – oder für die Eingeweihten: "KQ-Schätzung" oder auch "Kriterium der kleinsten Quadrate".

Kleinste: wo sind die quadrierten zusammengezählten Residuen am kleinsten?

Quadrate: die Residuen werden alle erst ins Quadrat gesetzt und dann aufsummiert

Schätzung: wir können immer (bzw. in den allermeisten Fällen) nur von den Daten einer Stichprobe ausgehen, daher ist es eine Schätzung

Generell gilt: je kleiner die Residuen sind, desto besser oder genauer ist die Vorhersage! Je größer, desto schlechter bzw. ungenauer.

Ergebnis der KQ-Schätzung:

Mit der KQ-Schätzung erhält man die beiden Faktoren bzw. Koeffizienten, die die Lage der Regressionsgerade bestimmen, nämlich die sogenannten Regressionskoeffizienten a und b:

a oder Achsen-Abschnitt a oder die "Konstante": Wo schneidet die Gerade die y-Achse? Inhaltlich wird a meist nicht interpretiert, würde aber den vorhergesagten Wert von y bedeuten, wenn x = 0 wäre.

b oder die Steigung oder Regressionsgewicht: Wie steil ist die Gerade? b zeigt gewissermaßen den "Effekt" des Prädiktors auf das Kriterium, wobei man das nicht kausal verstehen darf!

Das Regressionsmodell bzw. die Regressionsgleichung heißt dann:

y = a + bx

Der vorhergesagte Wert setzt sich also zusammen aus: a + b mal x.

Achtung: b kann auch negativ sein! Dann würde die Gleichung heißen: y = a - bx

Hier siehst du a und b:

Berechnung von a & b

a und b können auch ohne die Differentialrechnung mit den folgenden Formeln berechnet werden:

1. Schritt:

Kovarianz und Varianz von x berechnen (die Erklärung zur Berechnung der Varianz findest du hier). Das beinhaltet bereits das Berechnen der Mittelwerte von x und y.

2. Schritt:

b wird berechnet, indem man die Kovarianz durch die Varianz von x teilt.

3. Schritt:

a aus den zuvor errechneten Werten berechnen.

Praktische Vorhersage &

inhaltliche Bedeutung von a & b

Kommen wir zurück zu unserem Beispiel.

Angenommen, es wäre bei der Berechnung Folgendes herausgekommen:

a = 0.3 und b = 1.2

Dann heißt die Regressionsgleichung:

y = 0.3 + 1.2x

In der oberen Grafik wollten wir für einen Humor-Wert von 62 den vorhergesagten Freudfähigkeits-Wert wissen und haben das grafisch gemacht.

in "real life" macht man das jedoch mit der Gleichung, indem man für x den Wert 62 einsetzt:

y = 0.3 + 1.2 x 62 = 74.7

Dies kann man nun mit jedem beliebigen Humor-Wert tun und erhält dann jeweils den vorhergesagten Wert für die Freudfähigkeit.

Inhaltliche Bedeutung von a & b

Achsenabschnit a: wird wie erwähnt normalerweise nicht interpretiert und stellt die Vorhersage des Kriteriums bei einem Wert des Prädiktors von 0 dar.

WÖLLTEN wir das interpretieren, würde man Folgendes sagen: Wenn jemand absolut keinen Humor hat (Humor-Wert von 0), wird eine Freudfähigkeit von 0.3 vorhergesagt (also eher im sehr freudlosen Bereich).

Regressionsgewicht b: zeigt den "Effekt" des Prädiktors auf das Kriterium. Dabei gilt Folgendes:

Wenn x um eine Einheit ansteigt, verändert sich y um den Betrag b.

Praktisch bedeutet das:

Wenn der Humor-Wert um einen Punkt (das ist hier unsere Einheit) ansteigt, verändert sich y, d. h. der Wert der Freudfähigkeit, um 1.2. Hier ein paar Beispiel-Rechnungen:

y = 0.3 + 1.2 x 62 = 74.7

y = 0.3 + 1.2 x 63 = 75.9

y = 0.3 + 1.2 x 64 = 77.1

Wie du siehst, ist die Differenz zwischen den einzelnen Ergebnissen immer 1.2, was b entspricht. Ist b positiv, steigt y an; ist b negativ, verringert sich der Wert von y.

Wie sag' ich's Tante Erna?

Stell' dir vor, du bist bei deiner Tante Erna zu Schwarzwälder Kirschtorte und ordentlich Kaffee eingeladen. Tante Erna ist nicht die allerfirmste in Statistik, aber stets super interessiert an allem, was du so erhebst.

Also musst du ihr deine Ergebnisse in lai*innen-verständlicher Form nahebringen.

Das sähe hier so aus:

"Wir haben untersucht, ob man die Freudfähigkeit eines Menschen vorhersagen kann, wenn man weiß, wie humorvoll der- bzw. diejenige ist. Mit jedem bisschen, d. h. mit jedem Punkt mehr an Humor, steigt die Freudfähigkeit an, sogar um 1.2 Punkte. Wir haben aber noch nicht überprüft, ob dieses Ergebnis auch statistisch signifikant ist."

Mehr lässt sich ohne die Maße für die Qualität der Vorhersage und die weitergehende inferenzstatistische Auswertung nicht sagen.

Wie gut ist die Vorhersage?

Natürlich möchten wir auch noch wissen, wie gut die Vorhersage denn wirklich ist.

Hierfür gibt es zwei verschiedene Maße:

- R-Quadrat, auch Bestimmtheitsmaß oder Determinationskoeffizient genannt

- Standardschätzfehler

Du möchtest wissen, was das ist? Leider muss ich dich in dieser vermutlich nahezu unerträglichen Spannung lassen, denn beide Maße werden erst im nächsten Blog Post behandelt...

Verwirrung leicht gemacht! Die verschiedenen Bezeichnungen...

Wie du vermutlich schon leidvoll erfahren hast, gibt es in der Statistik zur allgemeinen Erbauung unterschiedliche Bezeichnungen für das Gleiche. Warum auch nicht!...

Hier ein Überblick:

Das Häubchen / Hütchen in obiger Tabelle wird "Dach" genannt, also z. B. "alpha Dach".

Damit wird ausgedrückt, dass es sich nur um eine Schätzung und keinen definitiv "sicheren" Wert handelt, weil man ja meistens nur die Daten einer Stichprobe hat und damit auf alle für eine Fragestellung in Frage kommenden Personen schließen möchte.

Daher sind die resultierenden Werte immer nur eine Schätzung, basierend auf den erhobenen Daten der jeweiligen Stichprobe.

Zum Abschluss: Der Steckbrief zur Regression

= Methode zur Vorhersage bei vorab bestehendem linearen Zusammenhang zwischen zwei Variablen
Ergebnis ist ein Regressionsmodell (Regressionsgleichung), mit Hilfe dessen für jeden beliebigen Wert von x (Prädiktor) der dazugehörige Wert von y (Kriterium) vorhergesagt werden kann
Um zur Regressionsgerade bzw. -gleichung zu kommen, wird die KQ-Schätzung verwendet
Das Ergebnis der KQ-Schätzung sind die Regressionskoeffizienten a und b
Die Regressionsgerade verläuft immer durch den Schwerpunkt des Datensatzes (= Mittelwert der beiden Variablen)
Die Regressionsgleichung lautet: y = a + bx
Gewöhnlich nur bei metrischen Variablen anwendbar

Meine Challenge an dich

Um das Ganze ein wenig zu festigen, würde ich vorschlagen, dass du dir einen Übungs-Datensatz schnappst (oder dir selbst ein paar Werte überlegst) und gleich mal eine einfache Regression berechnest.

Viel Spaß und Erfolg!

QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):

Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

KENNST DU SCHON MEINEN YOUTUBE-KANAL?

Guckst du hier:

ICH WILL ZUM YOUTUBE-KANAL!

z-Transformation einfach erklärt!

Stell' dir vor, du vermutest, dass du die Queen der emotionalen Intelligenz bist. Das möchtest du natürlich gerne an mindestens einem Test überprüfen. Um sicherzustellen, dass auch wirklich verlässliche Werte herauskommen und du nicht bloß deine Tagesform abbildest, machst du nun an zwei aufeinander folgenden Tagen zwei verschiedene Tests zur emotionalen Intelligenz, um die Werte miteinander vergleichen zu können.

Diese Tests beruhen jedoch jeweils auf unterschiedlichen Mittelwerten und Streuungen. Daher stehst du jetzt vor der großen Frage: was tun mit deinen Ergebnis-Werten? Denn diese lassen sich nicht so einfach unmittelbar miteinander vergleichen. Doch es gibt Hoffnung: die z-Transformation bzw. Standardisierung wandelt die Werte in eine neue gemeinsame Einheit um und macht sie somit direkt vergleichbar!

Inhaltsverzeichnis

Was ist die z-Transformation?

In welchen Bereich der Statistik gehört die z-Transformation?

Wie wird die z-Transformation berechnet?

Steckbrief z-Transformation

Meine Challenge an Dich

Was ist die z-Transformation?

Die z-Transformation oder auch z-Standardisierung überführt Werte, die mit unterschiedlichen Messinstrumenten erhoben wurden, in eine neue gemeinsame Einheit: in Standardabweichungs-Einheiten. Unabhängig von den Ursprungseinheiten können zwei (oder mehr) Werte nun unmittelbar miteinander verglichen werden.

Das Ergebnis der z-Transformation sind sogenannte "z-Werte". Diese stellen Standardabweichungen vom Mittelwert dar.

Ein z-Wert von 1 bedeutet beispielsweise, dass dieser Wert eine Standardabweichung vom Mittelwert entfernt ist, also eine Standardabweichung oberhalb des Mittelwerts liegt. Ein z-Wert von -2 besagt, dass sich der Wert zwei Standardabweichungen unterhalb des Mittelwerts befindet.

Die z-Werte "wohnen" in der Standardnormalverteilung – eine theoretische Verteilung von Werten, die für folgende Zwecke zum Einsatz kommt:

für den oben genannten Vergleich von Werten
um den z-Test (= Gauß-Test) auf Mittelwertsunterschiede bei bekannter Varianz durchzuführen
und um die Wahrscheinlichkeiten für Intervalle zu berechnen, also z. B. wie wahrscheinlich es ist, dass eine zufällig ausgewählte Person einen IQ zwischen 60 und 75 IQ-Punkten hat

Wir beschäftigen uns hier jedoch nur mit der ersten Einsatzmöglichkeit: dem Vergleich von Werten.

Und so sieht die Standardnormalverteilung aus – der Mittelwert bzw. Erwartungswert ist immer 0 und die Standardabweichung 1:

In welchen Bereich der Statistik gehört die z-Transformation?

Die z-Transformation gehört in die Welt der deskriptiven Statistik – und dort in den Bereich des Grundwissens.

Wie wird die z-Transformation berechnet?

Hier ist die Formel:

Was macht die Formel?

Sie relativiert die Abweichungen eines Werts vom Mittelwert einer Verteilung an der Standardabweichung dieser Verteilung. Daher der Name z-Standardisierung!

Es wird also berechnet, wie weit der Wert einer Person vom Mittelwert der Verteilung (z. B. der IQ-Verteilung) entfernt liegt, gemessen in Standardabweichungen, sprich: Standardabweichungs-Einheiten.

Beispiel Heinz-Rüdiger:

Heinz-Rüdiger sorgt sich, dass seine Konzentration nachgelassen habe, und sucht daher die Psychologin seines Vertrauens auf.

Diese bittet er nun, ihn durch zwei verschiedene Konzentrationstests zu jagen.

Die Tests basieren auf folgenden Kennwerten / Normierungen:

Test 1: μ = 50, σ = 5 Test 2: μ = 80, σ = 15

Heinz-Rüdiger erzielt in Test 1: 56 Punkte und in Test 2: 101 Punkte.

Nun könnte man meinen, dass er in Test 2 fast doppelt so gut wie in Test 1 abgeschnitten hätte. Doch diese Testergebnisse lassen sich nicht unmittelbar miteinander vergleichen!

Daher wandelt sie die Psychologin flott in z-Werte um:

Diese z-Werte lassen sich jetzt direkt miteinander vergleichen:

Heinz-Rüdiger hat in beiden Tests ähnlich abgeschnitten und liegt jeweils über eine Standardabweichung oberhalb des Mittelwerts.

Guckst du:

Brauchst du hilfe beim lernen von statistik?

Dann komm' zu statistik-gym, dem Online-Fitnessstudio für Statistik,

das dich fit für die Prüfung macht!

Eine Mitgliedschaft wie bei Netflix oder Spotify, nur eben für Statistik im Bachelor,

die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!

Darin bekommst du:

Eine monatlich wachsende Bibliothek von Videos & Audios
Live Frage- & Antwort-Sessions
Eine Roadmap, mit der du zielsicher durch den Dschungel der Statistik geführt wirst
Alles rund um Mindset, Motivation & Lerntechniken
Downloads wie Übungsblätter, Steckbriefe & Probeklausuren
Webinare / live Teachings
Du kannst jederzeit in der Community Fragen stellen & dich mit anderen austauschen!

Und dann macht Statistik vielleicht sogar Spaß!

Klingt gut? Dann klick' hier:

ich will zu statistik-gym!

Wie sag' ich's Tante Erna?

„Heinz-Rüdiger hat in beiden Konzentrationstests leicht überdurchschnittlich abgeschnitten.“

(z-Werte von 1.2 und 1.4)

„Er muss sich also keine Sorgen um seine Konzentrationsfähigkeit machen!“

Na bitte! Da sind wir jetzt sehr erleichtert...

Und Zum Abschluss noch ein Steckbrief:

Steckbrief z-Transformation

= Standardisierung
Umwandlung von Werten, die mit verschiedenen Messinstrumenten erhoben wurden, um sie vergleichen zu können
Nur bei metrischen Variablen anwendbar
Die neuen Werte sind z-Werte und wohnen in der Standardnormalverteilung
Die z-Werte sind nun unmittelbar miteinander vergleichbar
z-Werte stellen die Abweichung vom Mittelwert in Standardabweichungs-Einheiten dar

Meine Challenge an Dich

Schnapp' dir doch gleich mal ein paar Werte, erfinde die Kennwerte / Normierungen dazu (also mü und sigma) und z-transformiere, was das Zeug hält!

Anschließend pinselst du bitte eine Standardnormalverteilung und versuchst dich an einer Interpretation für Tante Erna.

Viel Spaß!

QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):

Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

KENNST DU SCHON MEINEN YOUTUBE-KANAL?

Guckst du hier:

ICH WILL ZUM YOUTUBE-KANAL!

Standardabweichung & Varianz einfach erklärt!

An Standardabweichung und Varianz kommt niemand vorbei, der oder die Statistik lernt. Sie gehören zur statistischen Grundausstattung und laufen einem immer wieder über den Weg, egal ob in der deskriptiven oder der schließenden Statistik (ich sage nur: Varianzanalyse...).

Beide zeigen, wie weit die Daten um den Mittelwert herum streuen, wobei nur die Standardabweichung praktisch interpretierbar ist und die typische Abweichung vom "Durchschnitt" anzeigt.

Im Folgenden lernst du, wie du diese beiden Kennwerte berechnest und interpretierst!

Inhaltsverzeichnis

Was sind Standardabweichung & Varianz?

In welchen Bereich der Statistik gehören sie?

Was sagt die Standardabweichung aus?

Berechnung Varianz

Berechnung Standardabweichung

Standardabweichung & Varianz mit SPSS

Steckbrief Standardabweichung & Varianz

Was sind Standardabweichung & Varianz?

Die Standardabweichung ist die Wurzel aus der Varianz und somit quasi ihre "Tochter".

Beide beschreiben bzw. quantifizieren die Streuung der Werte um den Mittelwert eines Datensatzes herum, geben also Auskunft darüber, wie sehr sich die Versuchspersonen im betreffenden Merkmal unterscheiden. Sie können nur bei metrischen Daten angewendet werden – bei Intervall-, Verhältnis- oder Absolutskala (falls dir das nichts sagt, guckst du hier).

Diese Streuungs- oder Dispersionsmaße sind in jeder empirischen Studie zu finden – meist wird die Standardabweichung als Zusatzinformation zum Mittelwert angegeben. Das sieht dann folgendermaßen aus: M (SD) – z. B. 5.14 (2.36) –, wobei M der Mittelwert ist (mean) und SD das Akronym für die Standardabweichung (standard deviation).

Der große Unterschied zwischen beiden ist, dass bei der Varianz die Werte im Quadrat vorliegen und bei der Standardabweichung in den Original-Einheiten. Beispielsweise macht die Aussage "Neurotizismus im Quadrat" (= Varianz beim Merkmal Neurotizismus) im Alltag bzw. umgangssprachlich durchaus Sinn, statistisch hingegen nicht.

Daher dient die Varianz als rechnerische Brücke, um zur Standardabweichung zu kommen, welche für die konkrete Interpretation um einiges userfreundlicher ist. Zudem stellt die Varianz die Basis für weitergehende Berechnungen dar, z. B. bei der Regression oder – man hätte es fast vermutet – der Varianzanalyse.

In welchen Bereich der Statistik gehören sie?

Standardabweichung und Varianz gehören in die Welt der beschreibenden oder deskriptiven Statistik, sind jedoch auch in der schließenden Statistik anzutreffen – sie heißen dann nur ein wenig anders: Aus s (Standardabweichung) und s Quadrat (Varianz) werden auf Populationsebene dann Sigma und Sigma Quadrat. Das Prinzip bleibt jedoch das gleiche.

Was sagt die Standardabweichung aus?

Die Standardabweichung beschreibt bzw. quantifiziert, wie weit die Werte typischerweise um den Mittelwert eines Datensatzes herum streuen: wie groß eine typische, repräsentative Abweichung vom "Durchschnitt" ist.

Wenn in den Daten Normalverteilung vorliegt, liegen knapp 70% aller Werte zwischen einer Standardabweichung unterhalb und einer Standardabweichung oberhalb des Mittelwerts.

Die Varianz sollte, wie oben bereits beschrieben, nicht zur Interpretation verwendet werden, sondern nur als Brücke, um zur Standardabweichung zu gelangen.

Berechnung Varianz

Was wäre die Statistik ohne wunderschöne Formeln? Hier siehst du zunächst die Formeln, bevor ich dir erkläre, was du damit machst.

Diese Formel verwendest du, wenn du aus der Stichprobe die tatsächlich in der Population geltende Varianz berechnen willst – das ist die sog. "Stichprobenvarianz":

ODER, auch gerne genommen (ist beides irgendwie hübsch), falls du einfach nur die Varianz in deiner Stichprobe berechnen willst, ohne auf die Grundgesamtheit zu schließen: "empirische Varianz"

Je nach Lehrbuch findest du die eine oder die andere Variante. Wenn man durch "n - 1" teilt, kommt man näher an die in der Grundgesamtheit (= Population) geltende Varianz heran.

So gehst du vor:

Berechne den Mittelwert
Ziehe von jedem Wert den Mittelwert ab und setze das Ergebnis jeweils ins Quadrat
Zähle dann alle quadrierten Werte zusammen
Teile anschließend durch n – 1 (oder durch n)

Um das Ganze an einem konkreten Beispiel zu veranschaulichen, nehmen wir eine Studie zum Selbstvertrauen bei Speed Dating Events, erhoben bei Erwachsenen über 18 Jahren. Das Selbstvertrauen wird zwischen 0 (gar nix vorhanden) und 30 (ergeht sich gern in Unwiderstehlichkeitsfantasien) skaliert. Hier sind die Daten:

1, 20, 26, 14, 9, 6, 19, 22 n = 8

Der Mittelwert ist 14.63 (hier musst du für die Berechnung im Gegensatz zum Median nicht nach Größe ordnen!). Ersteren setzen wir nun ganz gepflegt in die Formel ein.

Hier ist zunächst die Variante mit "geteilt durch n – 1":

Die Varianz = 74.84 (ziemlich groß für diesen kleinen Datensatz und definitiv nicht interpretationstauglich).

Und nun die Version mit "geteilt durch n":

Die Varianz = 65.48 (auch nicht viel hilfreicher...).

Wie du siehst, bringt uns das bei einer Skala von 0 – 30 für die Interpretation nicht wirklich weiter... Daher schreiten wir nun gleich zur Standardabweichung.

brauchst du hilfe beim lernen von statistik?

Dann komm' zu statistik-gym, dem Online-Fitnessstudio für Statistik,

das dich fit für die Prüfung macht!

Eine Mitgliedschaft wie bei Netflix oder Spotify, nur eben für Statistik im Bachelor,

die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!

Darin bekommst du:

Eine monatlich wachsende Bibliothek von Videos & Audios
Live Frage- & Antwort-Sessions
Eine Roadmap, mit der du zielsicher durch den Dschungel der Statistik geführt wirst
Alles rund um Mindset, Motivation & Lerntechniken
Downloads wie Übungsblätter, Steckbriefe & Probeklausuren
Webinare / live Teachings
Du kannst jederzeit in der Community Fragen stellen & dich mit anderen austauschen!

Und dann macht Statistik vielleicht sogar Spaß!

Klingt gut? Dann klick' hier:

ich will zu statistik-Gym!

Berechnung Standardabweichung

Wenn du die Varianz berechnet hast, ist der Löwenanteil bereits erledigt. Nun gilt es nur noch, die Wurzel aus der Varianz zu ziehen:

So gehst du vor:

Berechne die Varianz
Ziehe die Wurzel daraus

Bei unserem Beispiel zum Selbstvertrauen bei Speed Dating Events kommt Folgendes heraus – oben geteilt durch n - 1, unten durch n:

Und was sagt uns das jetzt?

Bezogen auf eine relativ überschaubare Skala von 0 bis 30 sind diese Werte ziemlich hoch, d. h. die Versuchspersonen unterschieden sich ziemlich in ihrem Selbstvertrauen. Man kann also nicht wirklich von einer homogenen Stichprobe sprechen.

Zusammengefasst:

Durchschnittlich hatten die Versuchs-Teilnehmer*innen einen Selbstvertrauenswert von ca. 15 (14.63), lagen also genau in der Mitte der Skala. Und typischerweise lagen die Werte zwischen 7 und 23 – ich runde hier und nehme für diese Aussage eine Standardabweichung von 8 um den Mittelwert herum, also 15 +/– 8 = 7 bzw. 23.

Hinter die Löffelchen schreiben:

Worauf du bei der Interpretation immer achten solltest, ist die Skala, auf der das interessierende Merkmal erhoben wurde. Es gilt also immer, die Größe der Standardabweichung ins Verhältnis zur Spannweite der Skala zu setzen.

Eine Standardabweichung von 2.2 ist bei einer Skala von 0 – 5 ziemlich hoch – und wäre bei einer Skala von 1 – 100 hingegen sehr gering.

Standardabweichung & Varianz mit SPSS

Beide Kennwerte lassen sich nicht exklusiv aufrufen, sondern werden bei verschiedenen Varianten der deskriptiven Statistiken mitgeliefert. Und wie so häufig bei SPSS, führen mehrere Wege zum Glück.

Geh' entweder auf "Analysieren", "Deskriptive Statistiken", "Häufigkeiten", dann auf den Button "Statistiken" und kreuz' beide Streuungsmaße an.

Oder du wählst den Weg über "Analysieren", "Deskriptive Statistiken", "Deskriptive Statistik". Hier wird die Standardabweichung bereits standardmäßig mit ausgeworfen. Wenn dich jedoch auch die Varianz interessiert, musst du im Eingabefenster für die Variablen bei "Optionen" einen Haken setzen.

Die umfassendste Auswertung erhältst du, wenn du auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse" gehst. Ein Beispiel dafür findest du hier.

Zum Abschluss noch ein kleiner Steckbrief:

Steckbrief Standardabweichung & Varianz

Beide beschreiben die Streuung um den Mittelwert herum
Gehören zur deskriptiven sowie zur schließenden Statistik
Nur bei metrischen Skalen anwendbar!
Die Varianz ist aufgrund der quadratischen Einheiten nicht zur Interpretation geeignet
Die Standardabweichung sagt aus, wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden.
Beide reagieren sehr sensitiv auf Ausreißer – in diesem Fall nur vorsichtig interpretieren oder nicht verwenden
Können in SPSS auf verschiedene Weisen bei den "Deskriptiven Statistiken" aufgerufen werden

Wie wär's mit einem virtuellen Fleißbild?

Na, wie sieht's aus – reicht die Motivation noch für eine unmittelbare Anwendung des Gelesenen?

Dann schnapp' dir einen kleinen Datensatz und rechne wild drauflos – und du erhältst ein virtuelles Fleißbild von mir.

Und nicht vergessen: Regelmäßig Belohnen!

Der Spaßfaktor von Statistik hält sich meist in eng umschriebenen Grenzen. Daher sollte man sich's beim und nach dem Lernen ganz arg gut gehen lassen. Zum Beispiel so:

QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

KENNST DU SCHON MEINEN YOUTUBE-KANAL?

Guckst du hier:

ICH WILL ZUM YOUTUBE-KANAL!

Median verständlich erklärt

Median oder Mittelwert – das ist hier die Frage! Wann nimmt man was? Und was ist der Median überhaupt? Wie wird er berechnet? Für die Eiligen gibt's zunächst die Kurzversion (quasi ein Spoiler, bevor's überhaupt mit dem Artikel losgeht...):

Der Median oder auch Zentralwert ist derjenige Wert, der in einer nach Größe geordneten Reihe von Werten genau in der Mitte liegt.

Stell' dir vor, du schreibst alle in einem Datensatz vorkommenden Werte nach Größe geordnet längs auf ein Blatt Papier, von Rand zu Rand. Anschließend faltest du das Papier genau in der Mitte: dann ist der Wert, der auf dem Knick liegt, der Median.

Inhaltsverzeichnis

Was ist der Median?

In welchen Bereich der Statistik gehört er?

Was sagt der Median aus?

Wann nimmt man ihn her?

Median ohne Formeln

Berechnung des Medians mit Formeln

Berechnung bei ungeradem Datensatz

Berechnung bei geradem Datensatz

Median mit SPSS

Steckbrief Median

Was ist der Median?

Der Median unterteilt einen nach Größe geordneten Datensatz in zwei Hälften: mindestens 50% der Daten sind kleiner als (oder gleich) und mindestens 50% sind größer als (oder gleich) dem Median.

Es ist derjenige Wert, der genau in der Mitte des Datensatzes liegt – daher der Name "Zentralwert". Er ist ein Maß für die zentrale Tendenz.

Bei einem ungeraden Datensatz ist der Zentralwert direkt im Datensatz enthalten, bei einem ungeraden Datensatz wird er aus den beiden in der Mitte befindlichen Werten gemittelt, also sozusagen künstlich erschaffen.

Weitere alternative Bezeichnungen sind 2. Quartil (Q2) und das 50%-Quantil.

In welchen Bereich der Statistik gehört er?

Der Zentralwert gehört in die Welt der beschreibenden oder deskriptiven Statistik. Bei der Deskriptivstatistik geht's darum, die in einem Datensatz enthaltene Information auf wenige Kennwerte zu reduzieren und zudem grafisch darzustellen. Es werden im Gegensatz zur Inferenzstatistik keine Schlüsse auf die dazugehörige Grundgesamtheit gezogen, sondern nur beschrieben, was in einer bestimmten Stichprobe zu finden ist.

Der Median gehört zu den Lagemaßen, die den Schwerpunkt eines Datensatzes beschreiben.

Was sagt der Median aus?

Ehrlich gesagt lässt sich hier nicht so wahnsinnig viel hineininterpretieren. Nur dies: bis zu diesem Punkt haben sich 50% aller Werte angesammelt und 50% liegen darüber. That's it.

Wann nimmt man ihn her?

Wenn es Ausreißer oder Extremwerte im Datensatz gibt und der Mittelwert nicht verwendet werden sollte – oder wenn ordinalskalierte Daten vorliegen. Man verwendet den Median, um die Mitte eines Datensatzes bestimmen bzw. quantifizieren zu können.

Achtung: Bei ordinalskalierten Daten wie z. B. Rangplätzen und geradem Datensatz ist der Median nicht eindeutig festzulegen: Wenn es beispielsweise in einem Schönheitswettbewerb den 1., 2., 3. und 4. Platz gibt, läge der Median rechnerisch zwischen dem 2. und dem 3. Platz. Das wäre dann der 2.5te Platz, den es jedoch nicht gibt!

Median ohne Formeln

Die Berechnung des Zentralwerts ist recht einfach, wird jedoch wie üblich in der Statistik etwas kompliziert dargestellt. Wie du gleich sehen wirst, gibt es zwei Varianten: einmal für einen ungeraden und einmal für einen geraden Datensatz.

Als Beispiel nehmen wir eine Erhebung zur Angst, etwas zu verpassen (FOMO = Fear of Missing Out), erhoben bei Jugendlichen zwischen 14 und 18 Jahren. FOMO wird hier zwischen 0 (keinerlei Angst, tiefenentspannt) und 100 (Stirbt gefühlt, wenn nicht alle Social Media Feeds minütlich gecheckt werden) skaliert. Dies sind die Daten:

Ungerader Datensatz: 23, 56, 87, 30, 28, 45, 66, 18, 49, 48, 55 n = 11

Gerader Datensatz: 23, 56, 87, 30, 28, 45, 66, 18, 49, 48 n = 10

Ungerader Datensatz

Auch ohne Formeln ist der erste Schritt immer, die Daten nach Größe zu ordnen!

Danach schaust du einfach, welcher Wert genau in der Mitte liegt: hier ist es die 48. Bingo.

gerader Datensatz

Hier musst du einfach nur die beiden in der Mitte stehenden Werte mitteln – et voilà!

brauchst du hilfe beim lernen von statistik?

Dann komm' zu Statistik-gym, dem Online-Fitnessstudio für Statistik,

das dich fit für die Prüfung macht!

Eine Mitgliedschaft wie bei Netflix oder Spotify, nur eben für Statistik im Bachelor,

die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!

Darin bekommst du:

Eine monatlich wachsende Bibliothek von Videos & Audios
Live Frage- & Antwort-Sessions
Eine Roadmap, mit der du zielsicher durch den Dschungel der Statistik geführt wirst
Alles rund um Mindset, Motivation & Lerntechniken
Downloads wie Übungsblätter, Steckbriefe & Probeklausuren
Webinare / live Teachings
Du kannst jederzeit in der Community Fragen stellen & dich mit anderen austauschen!

Und dann macht Statistik vielleicht sogar Spaß!

Klingt gut? Dann klick' hier:

ich will zu statistik-gym!

Berechnung des Medians mit Formeln

Und nun das Ganze mit Formeln für die beiden Varianten. Die tiefergestellten Klammern rechts neben den x zeigen Positionsnummern an, also an welcher Stelle ein bestimmter Wert in einer nach Größe geordneten Datenreihe steht.

Berechnung bei ungeradem Datensatz

1. Ordne nach Größe

2. Rechne die Positionsangabe in der Klammer aus

3. Welcher Wert befindet sich an dieser Position?

Das ist der Median!

Berechnung bei geradem Datensatz

1. Ordne nach Größe

2. Rechne die Positionsangaben in den Klammern aus

3. Welcher Werte befinden sich an diesen Positionen?

4. Setze diese Werte in die Formel ein und du bekommst den Wert des Medians

Zusammengefasst:

Bei ungeraden Stichproben rechnest du eine Position aus und schaust dann den Wert nach.

Bei geraden Stichproben wechselst du von der Positionsberechnung zum Rechnen mit „richtigen“ Werten und bekommst als Ergebnis gleich den Wert des Medians heraus (und nicht seine Position).

Median mit SPSS

Den Median kannst du nicht exklusiv aufrufen, sondern bekommst ihn bei der Explorativen Datenanalyse mitgeliefert.

Dazu gehst du auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du die dich interessierenden Variablen aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". Ein Beispiel dafür findest du hier.

Zu guter Letzt noch eine kleine Kurz-Übersicht:

Steckbrief Median

Der Median ist derjenige Wert, der einen Datensatz in 50% kleinere und 50% größere Werte unterteilt
Gehört zur Welt der deskriptiven Statistik
Anwendbar ab Ordinalskala aufwärts
Bei Ordinalskala und geradem n nicht eindeutig definiert
Wenn Ausreißer vorliegen, ist er zur Interpretation besser geeignet als der Mittelwert (Letzterer reagiert sehr sensibel auf Ausreißer und Extremwerte)
Ist in SPSS in der Explorativen Datenanalyse enthalten.
Der Median / Zentralwert ist der Wert bzw. Strich, der in der Mitte der Box des Boxplots liegt

geschafft!

Turning insight into action…

Wie wär's – reicht die Motivation noch für eine unmittelbare Anwendung des Gelesenen? Dann könntest du zum Beispiel die oben angegebenen Werte bei SPSS eingeben und die Explorative Datenanalyse rechnen lassen.

Oder du überlegst dir eine fiktive Untersuchung nebst Zahlen und rechnest wild drauflos.

Variante 3: Such' dir Übungsaufgaben – entweder im Internet oder in deinen Lehr- bzw. Übungsbüchern.

Oder aber du machst nichts... auch gut.

Aber vorher gilt wie immer: Belohnen!

Statistik ist bekanntlich nicht so lustig. Daher sollte man sich's nach dem Lernen (oder auch währenddessen) unbedingt gut gehen lassen...

QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

KENNST DU SCHON MEINEN YOUTUBE-KANAL?

Guckst du hier:

ICH WILL ZUM YOUTUBE-KANAL!

Boxplot einfach erklärt!

Wilde Zeichnungen von "Schachteln", auch Boxplots genannt, begegnen dir meist bereits zu Beginn deiner Statistik-Karriere. Sie gehören in die bunte Welt der deskriptiven, beschreibenden Statistik, in der es darum geht, die Informationen, die in einem Datensatz enthalten sind, auf einige wenige Kennwerte zu reduzieren, also sozusagen die Essenz herauszuarbeiten.

Nun kann man das zum einen rechnerisch machen, z. B. mit dem Mittelwert, Varianz, Median etc., aber zudem auch grafisch. Und zu diesen grafischen Darstellungen der enthaltenen Informationen gehört der Boxplot, mit dem sich praktischerweise gleichzeitig sowohl die zentrale Tendenz eines Datensatzes als auch die Streuung darstellen lässt.

Inhaltsverzeichnis

Wissenswertes rund um den Boxplot

Berechnung des Boxplots

Interpretation von Boxplots

Boxplot mit SPSS

Wissenswertes rund um den Boxplot

Wie bereits eingangs erwähnt, kannst du mit dem Boxplot in einer einzigen Grafik die zentrale Tendenz sowie die Streuung darstellen. Die Streuung sagt dir, wie weit die Daten um den Zentralwert herum verteilt sind bzw. wie sehr sich die Versuchspersonen im untersuchten Merkmal unterscheiden. Der verwendete zentrale Wert ist hier jedoch nicht der Mittelwert, sondern der Median, also derjenige Wert, der einen nach Größe geordneten Datensatz in zwei Hälften unterteilt: in 50% kleinere und 50% größere Werte.

Zudem siehst du auf einen Blick, wie die Werte in deinem Datensatz verteilt sind: handelt es sich um eine symmetrische, rechts- oder linkssteile Verteilung?

Ein weiterer großer Vorteil des Boxplots ist, dass man sofort erkennen kann, ob es Ausreißer und Extremwerte in einem Datensatz gibt, also Werte, die weit ab von den übrigen Werten liegen.

Die Voraussetzung, um einen Boxplot berechnen zu können, ist eine Variable, die mindestens Ordinalskalen-Niveau hat. Das bedeutet, dass bei Merkmalen wie Geschlecht, Nationalität oder Farbpräferenz kein Boxplot berechnet werden kann (Infos zu den Skalenniveaus findest du hier).

Und was hat es mit der Box auf sich?

Die Box, die der Name Boxplot beinhaltet, zeigt an, in welchem Bereich sich die mittleren 50% aller Werte befinden. Das untere Ende der Box ist derjenige Punkt in den Daten, an dem sich die unteren 25% angesammelt haben (0.25-Quantil oder Q1). Der Strich in der Mitte ist der Median (bis hierher haben sich 50% angesammelt, das 0.5-Quantil oder Q2) und das Ende der Box kennzeichnet den Punkt, an dem sich 75% aller Werte angesammelt haben (0.75-Quantil oder Q3).

Das untere Ende der Box ist also Q1, der Strich in der Box Q2 und das obere Ende Q3. Die Länge der Box bzw. die Differenz zwischen Q3 und Q1 wird Interquartilsabstand IQA oder IQR genannt (aus dem Englischen: interquartile range).

Übrigens wird der Boxplot manchmal auch als Box-Whisker-Diagramm oder Kastengrafik bezeichnet.

Oder auch als 5-Punkte-Zusammenfassung, denn er enthält das Minimum (kleinster Wert), Q1, Q2, Q3 und das Maximum (größter Wert).

Berechnung des Boxplots

Überblick:

1. Berechne den Median, der den Datensatz in zwei Hälften unterteilt

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

Und nun die Ausführliche Schriftliche Anleitung:

Unser Beispiel: Eine Psychologin interessiert sich für die Reaktionszeit von Kindern zwischen 6 und 12 Jahren. Diese sollen im Labor sofort die Enter-Taste am Computer drücken, sobald ein rosa-flauschiges Glitzer-Einhorn erscheint. Die Ergebnisse der Versuchspersonen sind in Millisekunden angegeben.

1. Berechne den Median

Ordne als erstes die Zahlen nach Größe.

Nun gibt es zwei Varianten: gerade und ungerade Anzahl an Werten im Datensatz.

Bei einer geraden Anzahl an Werten musst du nach dem Ordnen die beiden genau in der Mitte des Datensatzes liegenden Werte mitteln, also einen neuen Wert berechnen, der so gar nicht im Datensatz vorkommt.

Hier sind die Ergebnisse unserer Probanden:

5 7 9 12 13 13 14 30

Wir haben nun acht Werte. Die beiden Werte, die in der Mitte liegen (an Position 4 und 5), werden gemittelt, d. h. zusammengezählt und dann durch 2 geteilt, was 12.5 ergibt. 12.5 ist hier also der Median.

Guckst du:

Bei einer ungeraden Anzahl an Werten ist der Median direkt im Datensatz enthalten und derjenige Wert, der genau in der Mitte des nach Größe geordneten Datensatzes liegt:

Beispiel von oben:

5 7 9 12 13 13 14 16 30

2. Berechne IQR und somit die Länge der Box, indem du die Mediane der beiden Datensatz-Hälften berechnest

Jetzt berechnest du von den beiden durch den Median entstehenden Datenhälften jeweils wiederum den Median.

Hier sind sich die Statistiker nicht ganz einig, wie bei einem Datensatz mit ungerader Anzahl von Werten zu verfahren ist: sollte man den Median jeweils zu den beiden Datensatz-Hälften dazunehmen oder rauslassen?

Beides ist legitim – richte dich einfach danach, was an deiner Hochschule gelehrt wird. Die beiden Varianten sehen so aus:

Beim obigen Datensatz mit einer geraden Anzahl von Werten:

5 7 9 12 13 13 14 30

Hier wären die Mediane der beiden Datensatz-Hälften Folgende:

5 7 9 12 – Median bzw. Q1 ist 8

13 13 14 30 – Median bzw. Q3 ist 13.5

Wir machen nun mit diesem geraden Datensatz weiter und können jetzt IQR oder die Länge der Box berechnen. Dazu ziehen wir von Q3 das Q1 ab:

13.5 (Q3) – 8 (Q1) = 5.5 (IQR)

3. Überleg‘ dir eine sinnvolle Skalierung und male die Box mit dem Median darin ein

Bei unserem Beispiel bietet sich eine Skalierung von 0 bis knapp über 30 an. Zeichne nun Q1 (8), den Median (12.5) sowie Q3 (13.5) ein und verbinde das ganze mit einer hübschen Box. Ob du die Box liegend oder aufrecht malst, ist vollkommen egal. Das Ganze sieht dann so aus:

4. Berechne die POTENZIELLE maximale Länge der Whisker, indem du IQR mit 1.5 multiplizierst

Die sog. "Whisker" (aus dem Englischen: whisker = Schnurrhaare) sind die Striche, die aus der Box auf beiden Seiten (meist) herausragen (es gibt auch Boxplots, bei denen nur einer oder keiner der beiden Whisker herausragt). Grundsätzlich gilt: Die Whisker werden einmal am unteren Ende der Box nach unten und einmal am oberen Ende der Box nach oben eingetragen (oder nach links und rechts – je nachdem, ob du den Boxplot aufrecht oder liegend zeichnest).

Berechnung:

Unser IQR ist 5.5. Wenn wir das mit 1.5 multiplizieren, ergibt das

5.5 x 1.5 = 8.25

Warum man die Länge der Box nun gerade mit 1.5 multiplizieren muss, könnte man, so man wollte, mühsam mathematisch herleiten – aber das wollen wir definitiv nicht! Daher nimm' das bitte einfach als gegeben hin und sieh' es als eines der vielen Mysterien in der Welt der Statistik an...

Achtung: IQR mal 1.5 ist die POTENZIELLE, d.h. grundsätzlich mögliche Maximallänge der Whisker und meist nicht die tatsächliche Länge!

POTENZIELL könnten die Whisker in unserem Beispiel so aussehen:

Das untere Ende der Box ist 8. Von dort aus 8.25 nach unten wären: 8 – 8.25 = -0.25

Das obere Ende der Box ist 13.5. Von dort aus 8.25 nach oben wären: 13.5 + 8.25 = 21.75

D. h., die Whisker würden POTENZIELL im unteren Bereich der Skala bis -0.25 gehen und im oberen Bereich bis 21.75, hier als gestrichelte grüne Linien gezeichnet:

GUT zu wissen:

Die whisker werden nur bis zu denjenigen datenPunkten gezeichnet, die sich noch innerhalb der potenziellen maximalen Whiskerlänge befinden!

Werte, die außerhalb dieser potenziellen Länge liegen, werden als Ausreißer oder Extremwerte eingezeichnet!

5. Zeichne die Whisker ein – aber Achtung: die Whisker werden nur bis zum letzten Wert eingezeichnet, der noch innerhalb der potenziellen maximalen Länge der Whisker liegt!

Das wären in unserem Beispiel mit 5 7 9 12 13 13 14 30 die 5 im unteren und die 14 im oberen Bereich. Guckst du:

6. Zeichne eventuelle Ausreißer und Extremwerte ein – mit Kringel und Sternchen

Ausreißer sind Werte, die etwas außerhalb der potenziellen maximalen Whiskerlänge liegen. Bei SPSS werden diese gewöhnlich mit Kringeln eingezeichnet.

Extremwerte sind Werte, die mehr als drei Interquartilsbereiche außerhalb der Box und somit sehr weit ab von allen anderen liegen. Diese werden gewöhnlich mit Sternchen gekennzeichnet.

In unserem Beispiel gibt es einen Ausreißer von 30 Millisekunden. Diese Versuchsperson brauchte also besonders lange, bis sie nach Auftauchen des rosa-flauschigen Glitzer-Einhorns auf die Enter-Taste drückte. Sind diese 30 Millisekunden nun als Extremwert zu bezeichnen? Berechnen wir das doch mal:

Der Wert von 30 Millisekunden wäre ein Extremwert, wenn er 3 IQRs vom Ende der Box entfernt läge, also 3 mal 5.5 (IQR) = 16.5 Millisekunden vom oberen Ende der Box entfernt.

Die Box endet bei 14. Zählen wir nun 16.5 dazu, erhalten wir 30.5. Ab hier würde der Bereich der Extremwerte beginnen. Unser Wert 30 liegt knapp darunter, d. h. es ließe sich streiten, ob das noch als Ausreißer oder schon als Extremwert anzusehen ist. Technisch gesehen ist es NOCH ein Ausreißer, also malen wir ihn mit einem Kringel ein und haben jetzt endlich unseren fertigen Boxplot!

Brauchst du Hilfe beim Lernen von statistik?

Dann komm' zu statistik-gym, dem Online-Fitnessstudio für Statistik,

das dich fit für die Prüfung macht!

Eine Mitgliedschaft wie bei Netflix oder Spotify, nur eben für Statistik im Bachelor,

die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!

Darin bekommst du:

Eine monatlich wachsende Bibliothek von Videos & Audios
Live Frage- & Antwort-Sessions
Eine Roadmap, mit der du zielsicher durch den Dschungel der Statistik geführt wirst
Alles rund um Mindset, Motivation & Lerntechniken
Downloads wie Übungsblätter, Steckbriefe & Probeklausuren
Webinare / live Teachings
Du kannst jederzeit in der Community Fragen stellen & dich mit anderen austauschen!

Und dann macht Statistik vielleicht sogar Spaß!

Klingt gut? Dann klick' hier:

ich will zu Statistik-gym!

Interpretation von Boxplots

Du kannst an der Lage des Medians innerhalb der Box sowie den Längen der Whisker erkennen, ob die Werte des Datensatzes symmetrisch oder aber ungleich verteilt sind:
Bei symmetrischen Verteilungen liegt der Strich genau in der Mitte der Box.
Bei rechtssteilen Verteilungen ist der Strich nach oben oder rechts hin verschoben und bei linkssteilen nach unten bzw. links: viele Werte drängen sich bei diesen Verteilungen in einem Bereich, wohingegen der Rest weiter verteilt ist.
Das lässt sich an unserem Boxplot mit den Werten 5 7 9 12 13 13 14 30 schön erkennen: der Median ist nicht in der Mitte der Box, sondern nach oben bzw. rechts verschoben. Da zwischen dem Median und dem oberen (Q3) bzw. unteren Ende der Box (Q1) jeweils 25% aller Werte liegen, bedeutet ein nach rechts verschobener Strich hier, dass zwischen dem Median von 12.5 und dem Q3 von 13.5 ca. 25% aller Werte liegen (recht gedrängt), wohingegen weitere 25% aller Werte zwischen 8 (Q1) und 12.5 (Median) liegen, also weiter verteilt. Dies ist somit ein Beispiel für eine rechtssteile Verteilung.
Die Positionierung der Box auf der Achse zeigt dir, in welchem Bereich deiner Skalierung die mittleren 50% aller Werte liegen. Bei unserem Datensatz wäre das zwischen 8 und 13.5. Somit wiesen 50% aller Kinder Reaktionszeiten auf, die zwischen 8 und 13.5 Millisekunden lagen.
Ein breiter Interquartilsbereich, also eine breite Box, zeigt an, dass die Streuung groß ist und sich die Versuchspersonen im untersuchten Merkmal sehr unterscheiden. Ein kleiner IQR bedeutet hingegen, dass sich alle in ihrer Merkmalsausprägung recht ähnlich sind. Welcher Fall in unserem Beispiel zutrifft, müsste anhand der Forschungsliteratur überprüft werden: welche Werte sind bei Reaktionszeiten bei Kindern typisch? Daher lässt sich nicht zuletzt aufgrund des sehr kleinen Datensatzes (noch) keine Aussage treffen.
Die Länge der Whisker ist ebenfalls relevant: lange Whisker deuten auf eine breitere Verteilung hin, kurze auf eine schmale bzw. spitzgipflige.
Der kurze rechte Whisker in unserem Beispiel unterstreicht noch einmal die Aussage einer rechtssteilen Verteilung – hier laufen die Werte nicht gemächlich nach rechts bzw. oben hin aus, sondern fallen gewissermaßen jäh ab (und es gibt einen Ausreißer mit 30 Millisekunden). Auf der linken, unteren Seite ist der Whisker hingegen länger: die Werte ziehen sich also weiter in den unteren Bereich hinein.

Boxplot mit SPSS

Um den Boxplot bei SPSS zu erstellen, gehe nach Aufrufen eines von dir ausgewählten oder erstellten Datensatzes auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du dann die interessierende Variable aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". Der Boxplot wird automatisch im Zuge der gesamten Auswertung der Explorativen Datenanalyse generiert, d. h. du musst ein wenig nach unten scrollen, bis er unterhalb des Stamm-Blatt-Diagramms erscheint.

Ein weiterer Weg, um den Boxplot aufzurufen, ist über "Grafik", "Alte Dialogfelder", "Boxplot".

Und so sieht der von SPSS erstellt Boxplot für unseren Datensatz aus. SPSS gibt übrigens praktischerweise bei den Ausreißern und Extremwerten immer die Nummer der dazugehörigen Versuchsperson an, was hier das Kind Nr. 8 war.

Geschafft!

Na bitte, geht doch! Wenn du bis hierher gelesen hast – Gratulation!

Und jetzt wäre es vielleicht ganz gut, im Sinne von "Turning insight into action" das Ganze gleich mal mit einer anderen Variablen in diesem oder einem anderen Datensatz anzuwenden...

Aber vorher ist definitiv Zeit für eine wohlverdiente Belohnung, um wieder Motivation zu tanken und das Lernen von Statistik etwas angenehmer zu gestalten!

QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Was du schon immer über Skalenniveaus wissen wolltest…

Ganz am Anfang des Statistik-Kurses, wenn du noch Hoffnung hast, dass alles vielleicht doch nicht so schlimm wird wie befürchtet, begegnet dir das erste Mal das Thema „Skalenniveaus“ und du denkst dir möglicherweise, dass das ja ganz nett, aber nicht so wichtig ist.

Doch weit gefehlt, wie sich bald herausstellt! Denn mit zunehmendem Lernfortschritt begegnen dir immer wieder Begriffe wie „intervallskalierte Daten“ oder „Variable muss Ordinalskalen-Niveau haben“ etc. Auch beim Anlegen der Variablen in SPSS sollte am Ende jeder Zeile einer neu definierten Variablen das Skalen- oder Messniveau eingestellt werden.

Spätestens jetzt denkst du dir wahrscheinlich: „Hätte ich mir das doch mal besser angeschaut!“ und kramst deine Unterlagen hervor.

Die gute Nachricht ist: das kannst du dir sparen, weil ich dir hier alles Wissenswerte dazu zusammengestellt habe. Das ließe sich mathematisch natürlich noch DEUTLICH vertiefen, aber du weißt ja, dass das nicht unser Anliegen ist. Hier geht’s darum, die Prüfung zu bestehen und nicht in die Tiefen der Statistik einzutauchen (bei weitergehendem Interesse gibt es eine Fülle von sehr guten Informationen in den einschlägigen Lehrbüchern).

Inhaltsverzeichnis

Worum geht’s bei den Skalenniveaus?

NOMINALSKALA – ERDGESCHOSS

ORDINALSKALA – 1. STOCK

INTERVALLSKALA – 2. STOCK

VERHÄLTNISSKALA – 3. STOCK

ABSOLUTSKALA – 4. STOCK

Übersicht zur Einteilung von Variablen:

Turning insight into action…

Worum geht’s bei den Skalenniveaus?

Jede Variable, die du erhebst, wird einem bestimmten Skalenniveau zugeordnet. Die Skalenniveaus wiederum sagen dir, was du berechnungs-technisch mit deinen Variablen anstellen darfst. D. h., wenn du weißt, zu welchem Skalenniveau deine Variablen oder untersuchten Merkmale gehören, weißt du auch, welche Methoden du verwenden darfst und welche nicht.

Welche gibt’s?

Es gibt fünf Skalenniveaus:

Diese bauen aufeinander auf, so dass jede nachfolgende Skala die vorangehende(n) enthält und komplexer wird.

Du kannst dir das wie ein Haus mit verschiedenen Stockwerken vorstellen: das Erdgeschoss, quasi die Basis, ist die Nominalskala, das erste Obergeschoss die Ordinalskala und so weiter.

Gut zu wissen:

Variablen bzw. Merkmale, die auf der Nominal- und Ordinalskala liegen, werden kategoriale Merkmale genannt.

Variablen, die auf der Intervall-, Verhältnis- und Absolutskala verortet sind, werden als metrische Variablen bzw. Merkmale bezeichnet.

Die Intervall-, Verhältnis- und Absolutskala werden als metrische oder Kardinalskalen zusammengefasst.

NOMINALSKALA – ERDGESCHOSS

Worum geht’s?

Variablen, die zur Nominalskala gehören, sind

diskret
qualitativ
in Kategorien einteilbar

Beispiele:

Geschlecht, Studienfach, Familienstand, gewählte Partei, Religionszugehörigkeit, Schokoladensorten, Automarken, Nationalität, Haarfarbe, psychische Erkrankungen

Gut zu wissen:

„Diskret“ bedeutet, dass es zwischen den einzelnen Merkmalsausprägungen keine Zwischenstufen gibt. Es gibt also nichts zwischen Politologie und BWL, also kein 1.56 Politologie oder 2.38 BWL. D. h., es existiert nur die eine Ausprägung – oder aber die andere(n).

Diskrete Variablen sind gewöhnlich nominal- und ordinalskaliert, können jedoch auch auf einer höheren Skala liegen.

„Qualitativ“ bedeutet, dass die Variablen eine Qualität und nicht ein Ausmaß darstellen. Dies bedeutet z. B. beim Geschlecht, dass die Ausprägungen Frau/Mann eine Qualität anzeigen, es jedoch nicht möglich ist, anzugeben, dass jemand seeeehr Frau oder wenig Mann ist. Das sagen wir zwar umgangssprachlich so, wenn wir jemanden als „sehr weiblich“ oder „wenig männlich“ bezeichnen – statistisch gesehen dürfen wir das jedoch nicht. Dies wirkt sich auch auf die Berechnungsmöglichkeiten aus, denn ein Durchschnitt aus Politologie und BWL oder Frau und Mann macht wenig Sinn.

Qualitative Variablen sind nominal- oder ordinalskaliert.

Was darfst du damit rechnen?

Hier sind die erlaubten mathematischen Operationen sehr eingeschränkt (wir erinnern uns: unterste, einfachste Skala).

Im Klartext: du darfst nur auszählen, wie viele Personen in deiner Stichprobe eine bestimmte Merkmalsausprägung aufweisen. Wie viele Personen studieren Politologie? Wie viele BWL? Wie viele Frauen waren in der Stichprobe? Wie viele Männer? That’s it.

Welche Methoden bzw. Kennwerte sind hier möglich?

Modus (häufigster Wert), Chi-Quadrat-Koeffizient bzw. -Test, Phi-Koeffizient, Cramérs V

ORDINALSKALA – 1. STOCK

Worum geht’s?

Hier kommt zu den Eigenschaften der Nominalskala eine Rangfolge im Sinne von größer, schneller, höher, besser dazu.

Variablen, die zur Ordinalskala gehören, sind

diskret
qualitativ
in Kategorien einteilbar
in eine RANGFOLGE zu bringen

Beispiele:

Bildungsstand, Plätze in einem Wettkampf, militärische Ränge, Hochschulrankings, Schulnoten (Schulnoten gehören „eigentlich“ zu dieser Skala, werden berechnungstechnisch jedoch behandelt wie Variablen auf der Intervallskala)

Gut zu wissen:

Neu ist jetzt hier, dass sich die Daten in eine Rangreihe bringen lassen, wobei die Abstände zwischen den einzelnen Rängen nicht exakt gleich sind!

Stell‘ dir z. B. einen Skiläufer vor, der den ersten Platz gewinnt. Der Skiläufer auf dem zweiten Platz kommt nur eine Millisekunde nach ihm ins Ziel, während der Skiläufer auf dem dritten Platz vor Zielerreichung stürzt und erst eine halbe Minute später das Ziel erreicht. Die Abstände zwischen den ersten drei Plätzen sind hier also sehr unterschiedlich.

Was darfst du damit rechnen?

Hier sind die erlaubten mathematischen Operationen ebenfalls noch sehr eingeschränkt. Aber immerhin darf man nun nicht nur auszählen, sondern auch in eine Rangreihe bringen.

Welche Methoden bzw. Kennwerte sind hier möglich?

Modus, Median, Boxplot, Rangkorrelationskoeffizient nach Spearman, Kendalls Tau, U-Test, Wilcoxon-Test

Brauchst du hilfe beim lernen von statistik?

Dann komm' zu Statistik-Gym, Dem Online-Fitnessstudio für Statistik,

das dich fit für die Prüfung macht!

Eine Mitgliedschaft wie bei Netflix oder Spotify, nur eben für Statistik im Bachelor,

die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!

Darin bekommst du:

Eine monatlich wachsende Bibliothek von Videos & Audios
Live Frage- & Antwort-Sessions
Eine Roadmap, mit der du zielsicher durch den Dschungel der Statistik geführt wirst
Alles rund um Mindset, Motivation & Lerntechniken
Downloads wie Übungsblätter, Steckbriefe & Probeklausuren
Webinare / live Teachings
Du kannst jederzeit in der Community Fragen stellen & dich mit anderen austauschen!

Und dann macht Statistik vielleicht sogar Spaß!

Klingt gut? Dann klick' hier:

ich will zu statistik-gym!

INTERVALLSKALA – 2. STOCK

Worum geht’s?

Variablen, die zur Intervallskala gehören, sind gewöhnlich (manchmal gibt’s Ausnahmen)

stetig
quantitativ
in Kategorien einteilbar
in eine Rangfolge zu bringen,
bei der ZWISCHEN DEN EINZELNEN MERKMALS-AUSPRÄGUNGEN DER GLEICHE ABSTAND ist

Beispiele:

Alle psychologischen Konstrukte wie Geduld, Extraversion, Empathie, Durchhaltevermögen, Aggressivität, Intelligenz, Resilienz etc., Temperatur in Grad Celsius

Gut zu wissen:

Am häufigsten verwendete Skala in der Psychologie!

Neu ist jetzt hier, dass die Abstände zwischen den einzelnen „Rängen“ bzw. Merkmals-Ausprägungen gleich sind.

„Stetig“ bedeutet, dass es zwischen den einzelnen Merkmals-Ausprägungen unendlich viele Zwischenstufen gibt. Es existieren also zwischen zwei Ausprägungen der Empathie potenziell unendlich viele Zwischenwerte, wenn man nur genau genug misst. Jemand könnte beispielsweise einen Empathie-Wert von 4,5278098982973 haben. Oder 5,6274. Oder 1,20.

Das Gleiche gilt für verhältnisskalierte Variablen wie die Körpergröße. Wenn im Pass 172cm stünde, könnte die tatsächliche Größe beispielsweise 172,4516 cm betragen, wenn man nur sehr, sehr genau messen würde.

Am leichtesten kann man sich den Unterschied zwischen diskreten und stetigen Variablen vielleicht merken, wenn man im Kopf behält, dass man bei stetigen Merkmalen immer ein Komma und unendlich viele Nachkommastellen anhängen könnte. Das ist bei diskreten Variablen nicht möglich (Frau,23709 macht nicht wirklich Sinn…).

Stetige Variablen gehören in der Psychologie meist zu den metrischen Skalen.

„Quantitativ“ bedeutet, dass bei diesen Variablen ein Ausmaß angegeben werden kann: jemand kann sehr oder wenig intelligent sein.

Quantitative Variablen liegen auf den metrischen Skalen.

Was darfst du damit rechnen?

Ab der Intervallskala darfst du alle Rechenoperationen dieser Welt durchführen und alle Methoden der Statistik zum Einsatz bringen.

Welche Methoden bzw. Kennwerte sind hier möglich?

Alle!

VERHÄLTNISSKALA – 3. STOCK

Worum geht’s?

Variablen, die zur Verhältnisskala gehören, sind gewöhnlich (manchmal gibt’s Ausnahmen)

stetig
quantitativ
in Kategorien einteilbar
in eine Rangfolge zu bringen,
bei der zwischen den einzelnen Merkmals-Ausprägungen der gleiche Abstand ist
und haben einen NATÜRLICHEN NULLPUNKT

Beispiele:

Gewicht, Körpergröße, Alter, Einkommen, Reaktionsgeschwindigkeit, Kelvin- Temperaturskala

Gut zu wissen:

In der Psychologie bis auf Messungen der Reaktionsgeschwindigkeit eher selten!

Neu ist jetzt hier, dass es einen bereits natürlicherweise vorhandenen Nullpunkt gibt.

Das ist hingegen bei der Intervallskala nicht der Fall. Hier mag es zwar auch einen Nullpunkt geben – jedoch wurde dieser „konstruiert“, wie z. B. bei einer Messung der Leistungsbereitschaft auf einer Skala von 0 bis 100. Man könnte die Leistungsbereitschaft jedoch auch auf einer Skala von 1 bis 5 messen und hätte dann gar keine 0 oder einen „Nullpunkt“ in den Daten.

Was darfst du damit rechnen?

Alles

Welche Methoden bzw. Kennwerte sind hier möglich?

Alle!

ABSOLUTSKALA – 4. STOCK

Worum geht’s?

Variablen, die zur Absolutskala gehören, sind gewöhnlich (manchmal gibt’s Ausnahmen)

stetig / in manchen Lehrbüchern als diskret angegeben
quantitativ
in Kategorien einteilbar
in eine Rangfolge zu bringen,
bei der zwischen den einzelnen Merkmals-Ausprägungen der gleiche Abstand ist.
Sie haben einen natürlichen Nullpunkt
und liegen in einer NATÜRLICHEN EINHEIT vor

Beispiele:

Anzahl an… Fachsemestern, auf einer Party konsumierten Cocktails, Panikattacken, Zigaretten

Gut zu wissen:

In der Psychologie oft für Verhaltensbeobachtungen verwendet, z. B. Anzahl an verbalen Attacken, Verlegenheitsgesten, wertschätzenden Adjektiven etc.

Neu ist jetzt hier, dass zusätzlich zu allen bisherigen Eigenschaften noch eine bereits natürlicherweise vorliegende Einheit dazu kommt, meist in Form von „Anzahl an…“.