SPSS Outputs lesen leicht gemacht! Teil 2: Zusammenhangsmaße

Neue Runde, neues Glück! Nachdem wir uns in Teil 1 tapfer durch die deskriptiven Statistiken (inkl. Chi-Quadrat) kämpften, geht es nun mit Zusammenhangsmaßen für ordinalskalierte und metrische Variablen weiter, gefolgt von der Prüfung auf Normalverteilung der Daten. Letzteres ist ein wesentlicher Baustein deiner Statistik-Toolbox, da die meisten Verfahren in der Psychologie auf der Annahme von Normalverteilung beruhen. Und da wär's ganz gut, wenn du wüsstest, wie man das macht.

Damit du alles selbst nachvollziehen kannst, schreibe ich dir wieder die jeweiligen Schritte dazu, um die abgebildeten Ergebnistabellen zu erhalten.

Dabei gehe ich davon aus, dass du statistisches Vorwissen hast und dich mit der grundsätzlichen Bedienung von SPSS auskennst. Natürlich kannst du dir alles auch nur so durchlesen, ohne die Daten selbst aufzurufen. 

Hast du was anderes gesucht? Klick' hier für SPSS für die deskriptive Statistik, hier für t-Test und Regression sowie hier für die Varianzanalyse.

icon-logo-statistik

Wo du Datensätze zum Üben herbekommst

Datensätze bekommst du auf verschiedensten Seiten im Internet sowie direkt im Programm SPSS. Ich empfehle z. B. die Datensätze von Andy Field, die hier zu finden sind. 

Praktischerweise liefert SPSS aber auch eine Fülle von Datensätzen mit, die du folgendermaßen erreichen kannst:

Windows: C:/Programme/IBM/SPSS/Statistics/26 (oder eine andere Version)/Samples/German

Mac: Im Finder: Applications oder Programme/IBM/SPSS/Statistics/26 (oder eine andere Version)/Samples/German

icon-logo-statistik

Wo du Datensätze herbekommstdas Video

icon-logo-statistik

Zusammenhangsmaße für ordinalskalierte Daten

Die nachfolgenden Outputs entstammen alle dem Datensatz survey_sample.sav im SPSS-Samples-Folder, der knackige 46 Variablen und 2.832 Fälle aus den USA enthält. Bitte suche und öffne ihn – und los geht's.

Hier gibt es, wie so oft  bei SPSS, zwei Wege zum Glück. Ich zeige dir zunächst die Variante über den Weg, den du bereits aus Teil 1 kennst.

Gehe auf "Analysieren", "Deskriptive Statistiken", "Kreuztabellen". Im sich öffnenden Fenster klickst du die beiden ordinalskalierten Variablen "Höchster Abschluss" (Zeilen) sowie "Allgemeine Zufriedenheit" (Spalten) an. Es macht für das Ergebnis übrigens keinerlei Unterschied, welches Merkmal du den Zeilen oder Spalten zuordnest. 

Jetzt klickst du auf das Kästchen "Statistiken" auf der rechten Seite und setzt bei "Kendalls-Tau-b" einen Haken (auf gar keinen Fall zu verwechseln mit Kendalls-Tau-c ; ) – hier braucht es mal wieder Humor, um nicht zu verzweifeln...), drückst auf "weiter" und dann auf "OK". Du erhältst den nachfolgenden Output.

Was du hier ablesen kannst, ist Folgendes:

  • Oben bei "Verarbeitete Fälle" siehst du, bei wie vielen Fällen/Personen das Merkmal erfasst wurde, nämlich bei 2797. Von 1.2% aller Probanden fehlten die Werte.
  • In der nachfolgenden Kreuztabelle werden die Häufigkeiten für die einzelnen Merkmalskombinationen aufgeführt. Beispiel: Wie viele Menschen hatten einen High School-Abschluss und gaben an, ziemlich zufrieden zu sein? Schau' in der Zeile "High School" und der Spalte "Ziemlich zufrieden" – da steht 889.
ordinalskala-zusammenhang
  • Was jedoch vermutlich am meisten interessiert, sind die Ergebnisse in der letzten Tabelle "Symmetrische Maße". Hier wandert unser geschultes Auge einmal in der ersten Zeile direkt rechts neben "Kendall-Tau-b" zu "Wert": dort steht "-.111". Was heißt das?
  • Kendalls Tau kann wie der Korrelationskoeffizient r nach Bravais-Pearson nur Werte zwischen -1 und +1 annehmen. Ein Wert von -.111 ist relativ klein und somit als schwacher negativer Zusammenhang einzustufen. 
  • In der Spalte "Näherungsweise Signifikanz" kannst du den p-Wert ablesen und erkennen, ob du ein signifikantes Ergebnis hast. Da sich der p-Wert ganz eindeutig weit unter der üblichen magischen Grenze von .05 befindet, liegt ein hochsignifikantes Ergebnis vor: ".000" bedeutet, dass irgendwann mal nach den drei Nullen eine Zahl kommt, die allerdings hier nicht mehr ausgegeben wird. Das "Näherungsweise" in der Spaltenüberschrift muss uns nicht weiter stören.
  • Zusammenfassend lässt sich also feststellen, dass zwischen dem erreichten Abschluss bzw. Bildungsgrad und der allgemeinen Zufriedenheit ein schwacher, jedoch signifikanter negativer Zusammenhang besteht.
  • Dies würde bedeuten: JE HÖHER DIE BILDUNG, DESTO NIEDRIGER DIE ALLGEMEINE ZUFRIEDENHEIT. 
  • Was könnten wir daraus für uns persönlich lernen? Am besten nicht weiter studieren, denn dann sinkt die allgemeine Zufriedenheit...
icon-logo-statistik

aber aufgepasst:

Immer die Operationalisierung bzw. Kodierung der Variablen in der Datenansicht ansehen!

Sonst besteht die gefahr einer fehlinterpretation.

Würden wir uns die Kodierung nicht ansehen und einfach davon ausgehen, dass sowohl bei "Höchster Abschluss" als auch bei "Allgemeine Zufriedenheit" höhere Werte automatisch einen höheren Abschluss bzw. mehr Zufriedenheit bedeuten, würden wir, wie oben erfolgt, das Ergebnis falsch interpretieren.

Ein Blick in die Daten verrät nämlich, dass höheren Abschlüssen wie erwartet höhere Zahlen zugeordnet wurden – wohingegen die Zufriedenheit gegenläufig kodiert ist: 1 ist "Sehr zufrieden" und 3 "Nicht sehr zufrieden". Guckst du: geh' in die Datenansicht, such' die interessierenden Variablen und klick' in der Spalte "Werte" das Kästchen mit den drei Punkten an. Dann erhältst du die folgenden Fenster:

kodierung-abschluss
zufriedenheit-kodierung
  • Da der Zusammenhang negativ ist, gehen hohe Werte in dem einen Merkmal mit niedrigen Werten im anderen einher (und umgekehrt).
  •  Nun kannst du an der Kodierung ablesen, dass eine höhere Zahl bei "Höchster Abschluss" mit einer niedrigen Zahl bei "Allgemeine Zufriedenheit" einhergeht. 
  • Daraus folgt: JE HÖHER DIE BILDUNG, DESTO HÖHER DIE ALLGEMEINE ZUFRIEDENHEIT!
  • Heißt für uns: doch weiter studieren...
icon-logo-statistik

Alternativer Weg zu Zusammenhangsmaßen für ordinalskalierte Daten

Gehe auf "Analysieren", "Korrelation", "Bivariat". Im sich öffnenden Fenster klickst du wieder die beiden ordinalskalierten Variablen "Höchster Abschluss" sowie "Allgemeine Zufriedenheit" an und verschiebst sie in das Feld "Variablen". 

Jetzt setzt du darunter bei "Korrelationskoeffizienten" bei Kendall-Tau-b sowie Spearman einen Haken (und nimmst den Haken bei Pearson raus), drückst auf "weiter" und dann auf "OK". Du erhältst folgenden Output:

korrelationen-ordinalskala
  • In der oberen Hälfte bei "Kendall-Tau-b" kannst du ganz rechts in der obersten Zeile wieder die Stärke der Korrelation zwischen "Höchster Abschluss" und "Allgemeine Zufriedenheit" ablesen: -.111. Das Ergebnis ist logischerweise das Gleiche wie oben.
  • In der Zeile darunter findest du wieder den dazugehörigen p-Wert von .000, also ein hochsignifikantes Ergebnis, was auch durch die beiden Sternchen in der ersten Zeile bei -.111 dargestellt wird..
  • Die gleiche Information findest sich ab der 4. Zeile – SPSS stellt die Ergebnisse bei Korrelationen immer doppelt dar.
  • Im Abschnitt "Spearman-Rho" findest du den Rangkorrelationskoeffizienten nach Spearman, der ebenfalls normiert ist und nur Werte zwischen -1 und +1 annehmen kann.
  • Hier schaust du auch wieder in die erste Zeile und siehst den Wert -.123, der eine ganz ähnliche Aussage wie Kendalls Tau hat: es liegt ein schwacher negativer Zusammenhang vor.
  • Das Ergebnis der Testung auf Signifikanz steht wieder direkt darunter: .000. Auch dieser Zusammenhang ist hochsignifikant. Also bleibt es dabei: JE HÖHER DIE BILDUNG, DESTO HÖHER DIE ALLGEMEINE ZUFRIEDENHEIT! 
chamaeleon-bambus-spss

Zusammenhangsmaß bei metrischen Variablen

Zum Abschluss des bunten Korrelationsreigens wollen wir uns das wohl am häufigsten verwendete Zusammenhangsmaß ansehen: den Korrelationskoeffizienten r nach Bravais-Pearson – oder auch Produkt-Moment-Korrelation genannt.

Gehe dazu wieder auf "Analysieren", "Korrelation", "Bivariat". Im sich öffnenden Fenster klickst du jetzt zwei metrische Variablen an, nämlich "Alter" (Verhältnisskala) und "Wie viele Stunden Fernsehen pro Tag" (Absolutskala) und verschiebst sie in das Feld "Variablen". 

Da "Pearson" schon blau markiert erscheint, drückst du einfach nur auf "OK" und erhältst den nachfolgenden Output.

output-korrelation-spss

Was du hier ablesen kannst, ist Folgendes:

  • Wie schon oben beschrieben, ist die Information wieder doppelt enthalten: einmal rechts oben bei "Alter" und links unten bei "Wie viele Stunden Fernsehen pro Tag". Es reicht hier also, bei einer der Variablen die Werte abzulesen – wir machen das nun bei "Alter".
  • In der ersten Zeile ganz rechts steht der Wert von r, also die Stärke der Korrelation zwischen den Variablen: .107 oder 0.107. Gemäß der in der Statistik gängigen Konvention wird dies als schwacher positiver Zusammenhang eingestuft.
  • Um zu schauen, ob dieser Zusammenhang signifikant ist, schaust du wieder in der Zeile direkt darunter und siehst: .000 bzw. 0.000 – es liegt ein hochsignifikanter Zusammenhang vor, was auch durch die beiden Sternchen in der ersten Zeile bei .107 dargestellt wird.
  • Fazit: Es besteht ein (hoch-) signifikanter positiver Zusammenhang zwischen dem Alter und der Anzahl an Stunden vor dem Fernseher pro Tag im Sinne von: JE ÄLTER MAN WIRD, DESTO MEHR SIEHT MAN FERN!
  • Das stimmt nicht gerade hoffnungsfroh fürs Alter...
chamaeleon-bambus-spss

Prüfung auf Normalverteilung der Daten

Die meisten Verfahren innerhalb der Psychologie beruhen auf der Annahme bzw. Voraussetzung, dass die Daten normalverteilt sind. Ob dem jedoch tatsächlich so ist, lässt sich mit SPSS ganz einfach überprüfen.

Gehe dazu auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du wieder die Variablen "Alter" und "Wie viele Stunden Fernsehen pro Tag" aus und verschiebst sie in das Feld "Abhängige Variablen" (da die Normalverteilung eine stetige Verteilung ist, wählen wir hier metrische, stetige Variablen aus).

Jetzt klickst du rechts auf "Diagramme" und setzt bei "Normalverteilungsdiagramm mit Tests" einen Haken, drückst auf "weiter" und dann auf "OK". Du erhältst den nachfolgenden Output.

test-normalverteilung-spss

Was du hier ablesen kannst, ist Folgendes:

  • Hier werden immer zwei Tests für dieselbe Fragestellung aufgeführt: einmal nach Kolmogorov-Smirnov und einmal nach Shapiro-Wilk. In den meisten Fällen kommen beide Tests zum gleichen Ergebnis, also nicht verwirren lassen.
  • Beide Tests überprüfen die NULLHYPOTHESE, DASS NORMALVERTEILUNG VORLIEGT!
  • Die Alternativhypothese besagt dementsprechend, dass keine Normalverteilung vorliegt.
  • Oder anders ausgedrückt: zeigt sich hier ein signifikanter p-Wert, so liegt keine Normalverteilung vor!
  • Um das herauszufinden, schaust du nur in der Spalte "Signifikanz" und siehst hier bei beiden Variablen und beiden Tests jeweils hochsignifikante Ergebnisse: .000 bzw. 0.000.
  • Fazit: Es liegt weder beim Alter noch bei der Fernsehdauer pro Tag eine Normalverteilung vor!

Grafische Überprüfung, ob Normalverteilung vorliegt

Um dir die Ergebnisse der Tests auf Normalverteilung auch noch grafisch anzusehen, geh' auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse", gib wieder die beiden Variablen ein und drück' rechts auf "Diagramme". Dort kannst du rechts unterhalb von "Stamm-Blatt" bei "Histogramm" einen Haken setzen.

Du erhältst folgende Diagramme, bei denen sofort erkennbar ist, dass keine Normalverteilung vorliegt, da sie keine symmetrische Glockenform aufweisen:

histogramm-alter
histogramm-fernsehdauer
icon-logo-statistik

Geschafft!

So, das war's für Teil 2! Ich hoffe, es fällt dir nun etwas leichter, dich in den Ergebnistabellen zurechtzufinden! Vielleicht hast du ja sogar Lust, dir gleich einen weiteren Datensatz zu schnappen und das Ganze anzuwenden.  

Jetzt ist aber erst mal Zeit für Donuts! 

donuts

Welcher Statistik-Typ bist du?

quiz-chamaeleon-4
quiz-statistik-chamaeleon-2
quiz-statistik-chamaeleon-1
quiz-chamaeleon-3

Neugierig? Dann mach' jetzt das Quiz mit 15 Fragen rund um die deskriptive und schließende Statistik!

>