Statistik für Psychologie endlich einfach und verständlich erklärt!

Fühlst du dich lost im dschungel der Statistischen methoden?

Dann schnapp' dir das E-Book (0,-€):

endlich durchblick in statistik!

in 4 einfachen schritten zur wahl der richtigen methode

SPSS Outputs lesen leicht gemacht! Teil 4: Varianzanalyse

Die Varianzanalyse – oder für die Eingeweihten: ANOVA (Analysis of Variance) – ist neben der Regression eines der am häufigsten verwendeten Verfahren in der Psychologie und die Methode der Wahl bei Experimenten. Damit du auf der nächsten Party so richtig mit deinem diesbezüglichen Wissen angeben kannst, folgt nun das Rundum-sorglos-Paket für die ein- und zweifaktorielle Varianzanalyse!

Die ANOVA ist die Erweiterung des t-Tests: Beim t-Test können nur zwei Mittelwerte miteinander verglichen werden – will man nun aber mindestens drei Mittelwerte miteinander vergleichen, so kommt die ANOVA zum Einsatz. D. h., die ANOVA ist eine Methode zur Ermittlung von Mittelwerts-Unterschieden. Vorbedingung ist dabei, dass zwischen der abhängigen und der/den unabhängigen Variablen ein linearer Zusammenhang besteht.

Es wird geprüft, ob eine Variable mit mindestens drei Stufen bzw. Ausprägungen (einfaktorielle ANOVA) bzw. zwei Variablen mit jeweils mindestens zwei Stufen (zweifaktorielle ANOVA) einen Einfluss auf die abhängige Variable haben. Die unabhängigen Variablen (UV) sind meist diskret / kategorial (oder eine metrische Variable wird in Kategorien eingeteilt und somit "diskretisiert"), die abhängige Variable (AV) stetig / metrisch.

Damit du alles selbst nachvollziehen kannst, schreibe ich dir wieder die einzelnen Schritte dazu, um die abgebildeten Ergebnistabellen zu erhalten.

Hast du was anderes gesucht? Klick' hier für SPSS für die deskriptive Statistik, hier für Zusammenhangsmaße sowie hier für t-Test und Regression.

Inhaltsverzeichnis

Setting der Beispiele: Ü30-Party

Einfaktorielle Varianzanalyse

Zweifaktorielle Varianzanalyse

Wo du Datensätze zum Üben herbekommst

Datensätze bekommst du auf verschiedensten Seiten im Internet sowie direkt im Programm SPSS. Ich empfehle z. B. die Datensätze von Andy Field, die hier zu finden sind.

Praktischerweise liefert SPSS aber auch eine Fülle von Datensätzen mit, die du folgendermaßen erreichen kannst:

Windows: C:/Programme/IBM/SPSS/Statistics/27 (oder eine andere Version)/Samples/German

Mac: Im Finder: Applications oder Programme/IBM/SPSS/Statistics/27 (oder eine andere Version)/Samples/German

Setting der Beispiele: Ü30-Party

Folgendes fiktives Setting:

Auf einer Ü30-Party soll die Paarungswilligkeit der Besucher*innen untersucht werden.

- Im einfaktoriellen Fall in Abhängigkeit von der Art des konsumierten Alkohols in den Abstufungen kein Alkohol, Prosecco und Wodka.

- Im zweifaktoriellen Fall in Abhängigkeit vom konsumierten Alkohol in den Abstufungen kein Alkohol / Alkohol sowie dem Geschlecht, ganz old school kodiert nach Männlein und Weiblein.

Die nachfolgenden Outputs entstammen einem von mir liebevoll selbst gebastelten Datensatz, dessen Daten ich dir gleich zeige, so dass du sie in dein Programm eingeben kannst. Ansonsten gilt das hier gezeigte Vorgehen selbstverständlich für jeden beliebigen Datensatz.

Einfaktorielle Varianzanalyse

Die einfaktorielle ANOVA untersucht, ob sich die einzelnen Stufen oder Ausprägungen eines Faktors signifikant voneinander unterschieden.

Der dazugehöfige F-Test prüft die Nullhypothese, dass alle Mittelwerte gleich sind, also keine Faktorstufe irgendeinen Einfluss auf die AV hat.

Daher dient die Varianzanalyse als Basis für weitere Verfahren wie Post-hoc-Tests, mit deren Hilfe die genauen Mittelwerts-Unterschiede untersucht werden können. Zudem kann man sich natürlich auch die deskriptiven Statistiken ansehen, um zu sehen, welche Mittelwerte sich in welcher Richtung voneinander unterscheiden. Wir machen im Folgenden beides.

Doch zunächst zum Datensatz mit 30 fiktiven Versuchspersonen. Es wurden zwei Variablen angelegt:

- Die UV bzw. der Faktor Alkoholart (alc), kodiert mit 1 = kein Alkohol, 2 = Prosecco, 3 = Wodka

- Die AV Paarungswilligkeit (paarw) wird auf einer Skala von 0 (keinerlei sexuelles Interesse) bis 10 (alles, was nicht bei 3 auf dem Baum ist...) erfasst.

Hier ist die Datenmaske, falls du die Daten so eingeben willst, dass die im Folgenden gezeigten Ergebnisse herauskommen:

Um die einfaktorielle ANOVA aufzurufen, gehe auf "Analysieren", "Mittelwerte vergleichen", "Einfaktorielle Varianzanalyse". Im sich öffnenden Fenster verschiebst du in das Feld "Abhängige Variable" diejenige metrische Variable, bezüglich derer sich die Ausprägungen der Faktorstufen (vermutlich) unterscheiden. Wir nehmen hierfür die Paarungswilligkeit.

Danach definierst du den "Faktor": in diesem Falle die Alkoholart.

Zudem kannst du bei "Optionen" die deskriptiven Statistiken nebst dem Test auf Homogenität der Varianzen (Homoskedastizität) anfordern. Bei "Post hoc..." klicken wir auf "Scheffé" sowie "Tukey" (zwei der gängigsten Post-hoc-Verfahren), dann auf "Weiter" und danach auf "OK".

Es erscheint der folgende Output:

Zunächst betrachten wir die deskriptiven Statistiken:

deskriptivstatistik-einfaktorielle-anova

Das Gesamtmittel lag bei 5.2 auf einer Skala von 0 bis 10, was bedeutet, dass die Ü-30 Besucher*innen im Durchschnitt mittelmäßig paarungswillig waren.

Zudem kann man erkennen, dass die Paarungswilligkeit bei Genuss von Prosecco ziemlich hoch war und bei Wodka am niedrigsten. Ob diese Unterschiede ausreichen, um signifikant zu werden, sehen wir gleich im F-Test.

Doch zuvor betrachten wir noch den Levene-Test der Homogenität der Varianzen, den wir bereits beim t-Test kennengelernt haben. Dieser Test überprüft, ob die Varianzen in allen Gruppen gleich sind, wobei die Nullhypothese lautet: alle Varianzen sind gleich. D. h., wir hätten hier sehr gerne ein nicht-signifikantes Ergebnis, damit diese Voraussetzung für die Varianzanalyse nicht verletzt ist (zudem bestehen weitere Voraussetzungen, auf die hier jedoch nicht näher eingegangen wird).

Und das scheint tatsächlich der Fall zu sein: lies' in der rechten Spalte bei "Signifikanz", basierend auf dem Mittelwert, ab. Hier siehst du einen p-Wert größer 0.05, also ist Varianzhomogenität gegeben und wir dürfen den F-Test berechnen.

Nun zum "eigentlichen" Test der ANOVA, dem F-Test:

Du kannst das Ergebnis in der Spalte "Signifikanz" ablesen. Da hier .000 steht, liegt ein hochsignifikantes Ergebnis vor.
Wenn wir uns die deskriptiven Statistiken nicht angeschaut hätten, wüssten wir jetzt nur, dass sich mindestens zwei von drei Mittelwerten unterscheiden. Welche das sind, kann hier nicht herausgelesen werden.

Daher sehen wir uns jetzt die Einzelvergleiche der Mittelwerte mit den Post-hoc-Tests an:

Diese Tabelle ist ziemlich verwirrend. Die obere Hälfte stellt die Ergebnisse des Tukey-Tests dar, die untere diejenigen des Scheffé-Tests. Da beide hier zu annähernd gleichen Ergebnissen kommen, ist das Wichtige nur im oberen Teil eingekringelt.
Im grauen Bereich oben links siehst du die Spalte "(I) Alkoholart" und daneben "(J) Alkoholart",. Hier wird jeweils die in der ersten Spalte angegebene Alkoholart mit einer der danebenstehenden verglichen. Manche Informationen in der Tabelle sind daher doppelt vorhanden (was ja oft bei SPSS der Fall ist), wie z. B. in der ersten Zeile der Vergleich von "kein Alkohol" mit "Prosecco", dessen Ergebnis sich in Zeile 3 wiederholt.
Wir wenden unser geschultes Auge nun der Spalte "Signifikanz" zu. Hier sehen wir, dass sich die Versuchspersonen in ihrer Paarungswilligkeit signifikant unterscheiden, wenn sie Prosecco oder keinen Alkohol trinken. Das Gleiche gilt für Prosecco und Wodka. Es scheint also einen Unterschied für die Paarungswilligkeit zu machen, ob man Prosecco oder Wodka trinkt.
Um herauszufinden, in welche Richtung dieser Unterschied geht, also um die Frage: "Was macht paarungswilliger?" zu beantworten, kannst du dir entweder die "Mittlere Differenz (I-J)" ansehen – oder vielleicht etwas user-freundlicher noch einmal die deskriptiven Statistiken:

Fazit: Prosecco steigert bei Ü-30 Besucher*innen signifikant die Paarungswilligkeit!
Wer diesen Effekt nicht wünscht, sollte entweder nichts trinken oder sich an Wodka halten! Wodka macht nämlich deutlich weniger paarungsbereit.

GUT zu wissen:

Die einfaktorielle ANOVA kann auch über den Befehl "Analysieren", "Allgemeines Lineares Modell", "Univariat" aufgerufen werden.

Hier können unter "Optionen" die "Schätzungen der Effektgröße" angefordert werden, welche beim zuvor beschriebenen Weg nicht angezeigt werden.

Hier ist die entsprechende Ergebnistabelle für den F-Test (wenn man den Weg über das allgemeine lineare Modell geht), die ein wenig komplexer als die vorherige aussieht. Die zusätzliche Information ist nun das in der Fußnote angegebene "R-Quadrat" bzw. Eta-Quadrat von .775.

Wenn man diesen Wert mit 100 multipliziert, sagt das aus, wie viel Prozent der Varianz der Paarungswilligkeit vom Modell bzw. dem Faktor Alkoholart erklärt wird. Dieser Wert ist extrem hoch und liegt vermutlich daran, dass es sich um fiktive Daten handelt. Denn nach Cohens Konventionen ist ein Eta-Quadrat größer 0.14 bereits ein starker Effekt – und wir haben hier 0.775!

Zweifaktorielle Varianzanalyse

Um Zusammenhänge etwas lebensnäher abzubilden und die Varianzaufklärung zu erhöhen, wird bei der zweifaktoriellen ANOVA ein weiterer Faktor mit mindestens zwei Ausprägungen bzw. Faktorstufen hinzugenommen.

Dadurch kann man den Einfluss jedes Faktors separat prüfen (Haupteffekte) und zudem Wechselwirkungseffekte bzw. Interaktionen aufdecken. Diese zeigen sich darin, dass der Einfluss eines Faktors auf die AV von der jeweiligen Ausprägung des anderen Faktors abhängig ist – im Sinne von: "Nur wenn ..., dann ...". Beispiel folgt sogleich.

In unserer Ü30-Studie zur Paarungswilligkeit wird nun an 40 fiktiven Versuchspersonen der Faktor Geschlecht erhoben (kodiert mit 1 = Mann und 2 = Frau) sowie ob überhaupt Alkohol konsumiert wurde (Alkoholkonsum: kein Alkohol = 1, Alkohol = 2), wobei nicht zwischen den Alkoholarten differenziert wird (um die Komplexität gering zu halten). Die AV ist die Paarungswilligkeit.

Hier sind die Daten (sex = Geschlecht, alc = Alkoholkonsum und "paarw" = Paarungswilligkeit):

Gehe für die Auswertung auf "Analysieren", "Allgemeines lineares Modell", "Univariat" (univariat, da EINE abhängige Variable). Im sich öffnenden Fenster verschiebst du "Paarungswilligkeit" in das Feld "Abhängige Variable". In das Feld "Feste Faktoren" verschiebst du "Geschlecht" und "Alkoholkonsum".

Bei "Diagramme" schiebst du einmal das Geschlecht auf die "Horizontale Achse" und den Alkoholkosum in "Separate Linien", klickst auf "Hinzufügen" und wiederholst das Ganze dann umgekehrt, also Alkoholkonsum auf die horizontale Achse etc. Bestätige mit "Weiter".

Bei "Optionen" kannst du die deskriptiven Statistiken, Homogenitätstest sowie Schätzungen der Effektgröße anklicken. Gehe dann auf "Weiter" und auf "OK". Du erhältst folgenden Output:

Bei "Deskriptive Statistiken" siehst du, dass sich die MIttelwerte von Männern und Frauen sowohl ohne als auch mit Alkohol unterscheiden und die Frauen durchschnittlich jeweils paarungswütiger sind.
Der Levene-Test auf Gleichheit der Fehlervarianzen ist der gleiche wie oben, heißt hier nur etwas anders (ein beliebtes Spiel innerhalb der bunten Welt der Statistik). Hier wird die Nullhypothese, dass die Varianzen gleich sind, verworfen, da der p-Wert kleiner 0.05 ist (0.002). Also ist eine der Voraussetzungen verletzt. Da die ANOVA jedoch relativ robust auf Voraussetzungsverletzungen reagiert und die Stichproben der Frauen und Männer gleich groß sind, machen wir uns keine allzu großen Sorgen und schreiten voran.
Beim F-Test, hier angegeben als "Test der Zwischensubjekteffekte", interessieren dich erst die Werte ab der dritten Zeile. Hier kannst du in der Spalte "Sig." die p-Werte für die einzelnen Faktoren sowie den Wechselwirkungseffekt ablesen.
Der p-Wert in der Spalte "Sig." von .000 bei "sex" = Geschlecht zeigt ein hochsignifikantes Ergebnis an. Der Haupteffekt Geschlecht ist somit bestätigt. Offenbar unterscheiden sich die Versuchspersonen in ihrer Paarungswilligkeit bezüglich des Geschlechts signifikant. In welche Richtung dieser Unterschied geht, wissen wir aus dieser Tabelle nicht. Da wir jedoch bereits einen Blick auf die deskriptiven Statistiken riskiert haben, haben wir schon eine vage Vorstellung, wer paarungswilliger ist.
Bei "alc" = Alkoholkonsum liegt der p-Wert bei in der Spalte "Sig." bei .002, ebenfalls hochsignifikant. Somit liegt auch ein Haupteffekt Alkoholkonsum vor. Es scheint also einen Unterschied in der Paarungswilligkeit zu machen, ob man Alkohol getrunken hat oder nicht – was uns jetzt sehr erstaunt ;).
In der Zeile "sex * alc" (Wechselwirkung, immer am Sternchen zu erkennen) ist der p-Wert mit .017 ebenfalls signifikant, diesmal auf dem 5%-Niveau. Es liegt ein signifikanter Wechselwirkungs- oder Interaktionseffekt zwischen dem Geschlecht und dem Alkoholkonsum vor. Wie dieser aussieht, wissen wir jedoch aus der Tabelle nicht.
In der Spalte "Partielles Eta-Quadrat" ganz rechts werden die Effektgrößen angegeben. Auch hier sind die Effekte wieder als sehr stark einzustufen, da oberhalb von .14. SPSS gibt kein Eta-Quadrat aus, sondern nur das partielle Eta-Quadrat – Eta-Quadrat müsste man mit der Hand berechnen. Das partielle Eta-Quadrat gibt an, welcher Anteil der Unterschiede der AV Paarungswilligkeit auf den jeweiligen Faktor und Messfehler zurückzuführen sind, wobei der Einfluss der anderen Faktoren unberücksichtigt bleibt.

ÜBRIGENS:

Da pro Faktor nur zwei Ausprägungen vorhanden sind, können keine Post-hoc-Tests durchgeführt werden!

Was wir uns nun zu guter Letzt noch ansehen, sind die Profildiagramme, einmal mit Geschlecht auf der x-Achse, und einmal mit Alkoholkonsum – guckst du:

Was kannst du hier herauslesen?

Wir betrachten uns das obere Diagramm (das untere enthält die gleiche Information, nur anders dargestellt). Auf der Ordinate ist die Paarungswilligkeit abgetragen, auf der Abszisse das Geschlecht. Die rote Linie steht für Alkoholkonsum, die blaue für kein Alkohol.

Hier sieht man, dass Männer generell weniger paarungswilllig sind als Frauen (zumindest in dieser fiktiven Stichprobe...) – das ist der Haupteffekt Geschlecht (zu sehen an der Höhe des blauen und roten Kringels bei Mann).

Frauen starten also bereits ohne Alkohol paarungswütiger als Männer (blauer Kringel höher als bei den Herren), und wenn sie dann auch noch Alkohol trinken, ist kein Mann (oder Frau) mehr vor ihnen sicher. Dies siehst du daran, dass die Paarungswilligkeit bei der roten Linie, die für Alkoholkonsum steht, stark ansteigt. Bei den Männern steigt sie zwar auch an, aber nicht so stark. Da der Trend bei beiden Geschlechtern in die gleiche Richtung geht, liegt ein Haupteffekt Alkohol vor.

Der Wechselwirkungseffekt zeigt sich darin, dass die Linien (die sog. Responsekurven) nicht parallel sind! Dies ist ein Beispiel für eine ordinale Interaktion. Hier könnten wir also Folgendes formulieren: Nur wenn Frau, dann wirkt sich Alkohol besonders stark auf die Paarungswilligkeit aus! Again what learned...

Fühlst du dich lost im dschungel der Statistischen methoden?

Dann schnapp' dir das E-Book (0,-€):

endlich durchblick in statistik!

in 4 einfachen schritten zur wahl der richtigen methode

Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Geschafft!

Na bitte, geht doch!

Wenn du bis hierher tapfer durchgehalten hast, bekommst du ein virtuelles Fleißbild von mir sowie die offizielle Erlaubnis, dich erst einmal fette zu belohnen (Anregung siehe unten, Effekt siehe oben).

Und dann kannst du ja vielleicht zeitnah im Sinne von "Turning insight into action" dein Wissen mit einem anderen Datensatz testen!

QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

KENNST DU SCHON MEINEN YOUTUBE-KANAL?

Guckst du hier:

SPSS Outputs lesen leicht gemacht! Teil 3: t-Test & Regression

In diesem Teil stürzen wir uns in zwei der gebräuchlichsten Verfahren innerhalb der Psychologie, nämlich den t-Test für unabhängige Stichproben sowie die einfache und multiple Regression. Wenn du diese Methoden gut beherrschst, bist du schon recht gut aufgestellt: du kannst dann mit dem t-Test die Mittelwerte zweier Gruppen vergleichen ("Sind Männer optimistischer als Frauen?") und mit der Regression ganz ohne Glaskugel Vorhersagen machen ("Lässt sich die Hilfsbereitschaft aus der Empathiefähigkeit, der Sensibilität und dem Geschlecht vorhersagen?"). Das ist doch was, oder?

Damit du alles selbst nachvollziehen kannst, schreibe ich dir wie üblich die jeweiligen Schritte dazu, um die abgebildeten Ergebnistabellen zu erhalten.

Hast du was anderes gesucht? Klick' hier für SPSS für die deskriptive Statistik, hier für Zusammenhangsmaße sowie hier für die Varianzanalyse.

Inhaltsverzeichnis

t-Test für unabhängige Stichproben

Einfache lineare Regression

Multiple lineare Regression

Wo du Datensätze zum Üben herbekommst

Datensätze bekommst du auf verschiedensten Seiten im Internet sowie direkt im Programm SPSS. Ich empfehle z. B. die Datensätze von Andy Field, die hier zu finden sind.

Praktischerweise liefert SPSS aber auch eine Fülle von Datensätzen mit, die du folgendermaßen erreichen kannst:

Windows: C:/Programme/IBM/SPSS/Statistics/29 (oder eine andere Version)/Samples/German

Mac: Im Finder: Applications oder Programme/IBM/SPSS/Statistics/29 (oder eine andere Version)/Samples/German

Die nachfolgenden Outputs entstammen alle dem Datensatz survey_sample.sav im SPSS-Samples-Folder, der knackige 46 Variablen und 2.832 Fälle aus den USA enthält. Bitte suche und öffne ihn – und los geht's.

t-Test für unabhängige Stichproben

Der t-Test für unabhängige Stichproben untersucht, ob sich zwei Gruppen bezüglich eines bestimmten Merkmals signifikant unterscheiden. Dafür werden zwei Mittelwerte einer normalverteilten metrischen Variable miteinander verglichen.

Er wird verwendet, wenn es um Fragen geht wie: "Unterscheiden sich Frauen und Männer in ihrer sozialen Kompetenz?", "Weisen Jugendliche eine höhere Risikoaversion auf als Erwachsene?" oder "Sind Studierende stärker psychisch belastet als Schüler?".

Das Wort "unabhängig" meint hier, dass bei jeder Person nur eine Messung durchgeführt wird und es sich nicht um die Messungen von eng miteinander verwobenen Menschen handelt, wie z. B. Zweier-Teams oder Zwillinge.

Doch nun zur Umsetzung: Gehe auf "Analysieren", "Mittelwerte vergleichen", "t-Test für unabhängige Stichproben". Im sich öffnenden Fenster verschiebst du in das Feld "Testvariable(n)" diejenige metrische Variable, bezüglich derer sich die beiden Gruppen (vermutlich) unterscheiden. Wir nehmen "Wie viele Stunden Fernsehen pro Tag".

Danach definierst du die "Gruppierungsvariable". Die Gruppierungsvariable legt die Gruppen fest, die miteinander verglichen werden sollen. Wenn du nun die Gruppierungsvariable, um die es in deiner Untersuchung geht, in das dazugehörige Feld verschiebst, siehst du, dass du noch nicht auf "OK" klicken kannst. Du musst zuvor die Gruppierungsvariable definieren. Da wir es jedoch nicht immer automatisch mit dichotomen Variablen zu tun haben, die bereits als zwei Gruppen vorliegen, ist es manchmal gar nicht so leicht, die zwei zu vergleichenden Gruppen zu definieren.

Wir nehmen für unser Beispiel "Zufriedenheit in der Ehe". Dabei interessiert uns, ob Menschen, die in ihrer Ehe sehr zufrieden sind, weniger fernsehen als Menschen, die ziemlich zufrieden oder nicht sehr zufrieden sind (linksseitiger Test).

Klick' dazu auf "Gruppe def...". Im sich öffnenden Fenster kannst du entweder bei "Angegebene Werte verwenden" die Werte für die beiden Merkmalsausprägungen eingeben, die dich interessieren, oder im unteren Bereich einen Trennwert eingeben, der die Stichprobenwerte unterteilt. Wir machen Letzteres.

Um einen Trennwert eingeben zu können, musst du zuvor in die Variablen-Ansicht gehen und dir ansehen, welche Merkmalsausprägungen es gibt und wie diese kodiert wurden. Das sieht bei "Zufriedenheit in der Ehe" folgendermaßen aus:

Hier sind letztlich nur die Ausprägungen 1 bis 3 relevant (NZ, KA und NA sind fehlende Angaben). Wir setzen nun den Trennwert auf 2, was bedeutet, dass die Gruppe unterteilt wird in Menschen mit der Ausprägung 1, die in ihrer Ehe sehr zufrieden sind, und in Menschen, die entweder Ausprägung 2 oder 3 haben, also ziemlich oder nicht sehr zufrieden sind.

Der Trennwert unterteilt den Datensatz immer in eine Gruppe, die einen Wert kleiner als der Trennwert hat (hier wäre das die 1), und in eine Gruppe, die die Ausprägung des Trennwerts oder eine größere hat. D. h., es werden mehrere Untergruppen zu einer zusammengefasst. Dies ist wichtig, da es beim t-Test ja immer um den Vergleich von zwei Mittelwerten, also von zwei Gruppen geht. Daher muss man einen Datensatz mit mehr als zwei Fallgruppen immer künstlich in zwei Gruppen unterteilen oder nur zwei bestimmte Ausprägungen herausgreifen.

Hätte man beispielsweise nur Frauen (kodiert mit 1), und Männer (kodiert mit 2), im Datensatz, könnte man einfach bei "Angegebene Werte verwenden" definieren, wer Gruppe 1 und Gruppe 2 sein soll und dann entweder 1 für Frau oder 2 für Mann bei der jeweiligen Gruppe eingeben.

Aber nun zurück zu unserem Beispiel: nachdem du den Trennwert 2 eingegeben hast, klickst du auf "weiter" und dann auf "OK". Du erhältst den nachfolgenden Output.

Was du hier ablesen kannst, ist Folgendes:

Oben bei "Gruppenstatistiken" siehst du, bei wie vielen Fällen/Personen das Merkmal erfasst wurde. 687 Personen hatten angegeben, in ihrer Ehe sehr zufrieden zu sein, 426 waren ziemlich oder nicht zufrieden. In der Spalte "Mittelwert" sind die jeweiligen Gruppenmittelwerte angegeben.
Hier lässt sich bereits erkennen, dass die Mittelwerte nicht besonders weit auseinander liegen: 2.78 Stunden Fernsehen pro Tag bei den ziemlich und nicht Zufriedenen sowie 2.58 Stunden bei den sehr Zufriedenen. Diesen Abstand siehst du auch in der unteren Tabelle bei "Mittlere Differenz": .201 oder 0.201. Das entspricht ungefähr 12 Minuten: SPSS gibt keine Minuten an, daher muss man das umrechnen, hier ein Fünftel (0.2) einer Stunde.
Die Tabelle "Test bei unabhängigen Stichproben" ist zweigeteilt, was man leider nicht unmittelbar erkennen kann. Auf der linken Seite wird der sog. Levene-Test durchgeführt, welcher überprüft, ob die Varianzen in beiden Gruppen (ungefähr) gleich sind (selbstverständlich werden sie nie komplett gleich sein).
Die Nullhypothese dieses Tests lautet: "Die Varianzen sind in beiden Gruppen gleich.". Dies bedeutet, dass ein signifikanter Levene-Test anzeigt, dass sich die Varianzen der beiden Gruppen signifikant unterscheiden. Da die Standardabweichung die Wurzel aus der Varianz ist, könnte man sagen, dass der Test überprüft, ob die Standardabweichungen gleich sind. Dies wiederum kannst du bereits oben bei Gruppenstatistiken annähernd erkennen.
Wofür braucht man den Levene-Test? Er sagt uns, in welcher Zeile wir das Ergebnis des t-Tests ablesen sollen.
Hier sehen wir in der Spalte "Signifikanz" beim Levene-Test den Wert .606 oder 0.606. Da dieser deutlich über dem konventionellen kritischen p-Wert von .05 liegt, haben wir ein nicht-signifikantes Ergebnis, was bedeutet, dass die Varianzen (Standardabweichungen) der beiden Gruppen ähnlich sind. Das kannst du bei Gruppenstatistiken verifizieren: in der Spalte "Std.-Abweichung" siehst du die Werte 2.167 und 1.986, also recht ähnliche Standardabweichungen.
Daher lesen wir das Ergebnis des t-Tests in der Zeile "Varianzen sind gleich" ab.

Nun endlich zum t-Test: Du kannst das Ergebnis in der Spalte "Sig. (2-seitig)" ablesen. Da steht .113, also ein nicht signifikantes Ergebnis.
Aber vielleicht denkst du dir jetzt: wir haben doch einseitig (links) getestet – wieso steht hier jetzt zweiseitig? SPSS testet bei den älteren Versionen immer zweiseitig! Bei den neueren Versionen siehst du auch den p-Wert für die einseitige Testung.

GUT zu wissen:

Bei DEN ÄLTEREN VERSIONEN VON SPSS lässt sich kein einseitiger t-Test berechnen!

Es wird immer ein zweiseitiger Test ausgegeben.

Was tun?

Wenn die Daten bei "Gruppenstatistiken" in Richtung der Hypothese gehen (also hier geringere Fernsehdauer bei den sehr Zufriedenen), kann der p-Wert einfach halbiert werden, um den "wahren" p-Wert für den einseitigen Test zu erhalten.

BEI DEN NEUEREN VERSIONEN ERHÄLTST DU VON VORNHEREIN DIE EIN- UND ZWEISEITIGE AUSGABE & KANNST DANN JEWEILS DEN p-WERT ABLESEN, OHNE IHN TEILEN ZU MÜSSEN.

Da hier die Werte in Richtung der Hypothese gehen und die sehr Zufriedenen etwas weniger fernsehen (durchschnittlich 2.58 Stunden) als die andere Gruppe (2.78 Stunden), kann man den p-Wert teilen. Damit haben wir einen p-Wert von .0565, was streng genommen immer noch ein nicht-signifikantes Ergebnis ist, da größer .05 (diese Art des Schwarz-Weiß-Denkens beim Hypothesentesten wird übrigens immer mehr kritisiert).
Die mittlere Differenz der beiden Gruppen-Mittelwerte siehst du gleich in der Spalte daneben: .201. Das waren die bereits oben angesprochenen ca. 12 Minuten Unterschied im täglichen Fernsehkonsum.
Fazit: Menschen, die in ihrer Ehe sehr zufrieden sind, sehen genauso viel (oder wenig) fern wie Menschen, die ziemlich oder nicht sehr zufrieden sind. Again what learned...

Einfache lineare Regression

Die Regression ist eines der am häufigsten verwendeten Verfahren innerhalb der Psychologie und dient dazu, aus einer (einfache Regression) oder mehreren Variablen (multiple Regression) eine andere (metrische) Variable vorherzusagen.

Die Vorbedingung ist dabei, dass zwischen dem Prädiktor bzw. den Prädiktoren und dem Kriterium ein linearer Zusammenhang besteht. Dies kannst du dir durch Aufrufen der Korrelationen ansehen. Wie das geht, findest du hier.

Zudem bestehen weitere Voraussetzungen, auf die hier jedoch nicht näher eingegangen wird: normalverteilte Residuen sowie Homoskedastizität (Gleichheit der (Fehler-) Varianzen) – eines meiner absoluten Lieblingswörter! Das heutige Lernziel ist übrigens bereits erreicht, wenn du drei Mal hintereinander flott und fehlerfrei Homoskedastizität sagen kannst.

Eine Erklärung der einfachen linearen Regression findest du hier.

Beginnen wir zunächst mit der einfachen Regression: eine Variable sagt eine andere vorher. Wir machen das nun mit dem bereits bekannten TV-Konsum und wollen diesen aus dem höchsten abgeschlossenen Schuljahr vorhersagen. Also: Lässt sich aus dem höchsten abgeschlossenen Schuljahr vorhersagen, wie lange jemand täglich fernsieht?

Gehe dazu auf "Analysieren", "Regression", "Linear". Im sich öffnenden Fenster verschiebst du "Wie viele Stunden Fernsehen pro Tag" in das Feld "Abhängige Variable". In das Feld "Unabhängige Variable" verschiebst du "Höchstes abgeschlossenes Schuljahr". Wir könnten uns nun natürlich bei "Statistiken" und "Diagramme" alle möglichen weiteren Dinge auswerfen lassen, aber wir beschränken uns darauf, einfach nur auf "OK" zu klicken. Du erhältst folgenden Output:

Bei "Aufgenommene/Entfernte Variablen" wird angegeben, welche Variablen bzw. Prädiktoren in das Regressionsmodell aufgenommen wurden. Dieses Feld spielt besonders dann eine Rolle, wenn man z. B. theoriegeleitet schrittweise Variablen entfernt oder hinzufügt – was wir hier jedoch nicht tun. Außerdem haben wir momentan ohnehin nur einen Prädiktor definiert. Zudem wird in der rechten Spalte die verwendete Methode angegeben, hier "Einschluss", d. h. alle definierten Prädiktoren wurden ins Modell aufgenommen. In der Fußnote kannst du immer ablesen, was die abhängige Variable bzw. das Kriterium ist.
Bei "Modellzusammenfassung" findest du die Varianzaufklärung. Wie viel Prozent der gesamten Variabilität der Werte erklärt unser Regressionsmodell? Dazu schaust du bei der einfachen Regression bei "R-Quadrat" und siehst .068. Wenn du das mit 100 multiplizierst, erhältst du den Prozentsatz der aufgeklärten Varianz. Das wären sage und schreibe 6.8%, also nicht besonders viel.
Die Tabelle "ANOVA" zeigt die Ergebnisse eines F-Tests, der (auch) zur Welt der Varianzanalyse gehört (Analysis of Variance, ANOVA). Dass er hier angezeigt wird, liegt daran, dass sowohl die Regression als auch die Varianzanalyse demselben mathematischen Modell entstammen, nämlich dem Allgemeinen linearen Modell, ALM. Daher lässt sich jede Regression als Varianzanalyse rechnen – und umgekehrt.
Beim F-Test interessiert dich letztlich nur der p-Wert, der bei "Sig." steht: .000 zeigt ein hochsignifikantes Ergebnis an. Die Aussage dieses sog. globalen F-Tests ist einfach nur, dass das Modell etwas taugt und sich die Wirkung des Prädiktors von 0 unterscheidet. Mehr wissen wir erst einmal nicht.
Doch um mehr über den Effekt des Prädiktors herauszufinden, gibt es die Tabelle "Koeffizienten". Hier kannst du in der Spalte "Regressionskoeffizient ß" in der ersten Zeile die Konstante a sowie den Effekt des Prädiktors in der Original-Einheit ablesen und somit die Regressionsgerade basteln: y = a + bx. Hier wäre das: y = 5.523 – 0.201x
Zu guter Letzt siehst du dir ganz rechts bei "Sig." an, ob der Effekt des Prädiktors signifikant ist: .000 deutet auf ein hochsignifikantes Ergebnis hin (die Signifikanz der Konstante in der ersten Zeile interessiert nicht).
Fazit: Die Fernsehdauer lässt sich zu einem kleinen Teil (6.8%) aus dem höchsten abgeschlossenen Schuljahr vorhersagen. Der Effekt des Prädiktors von -.201 besagt, dass mit jedem weiteren abgeschlossenen Schuljahr die Fernsehdauer um ca. 12min absinkt (negativer Zusammenhang: je höher das Schuljahr, desto geringer die Fernsehdauer – oder: je weniger Schuljahre, desto mehr Zeit vor dem Fernseher).

Multiple lineare Regression

Um die sog. Multideterminiertheit des Verhaltens besser abzubilden und mehr Varianz aufzuklären, nehmen wir bei der multiplen Regression weitere Variablen ins Modell auf, denn unser Erleben und Verhalten wird stets von einer Fülle von Faktoren beeinflusst – und nicht nur von einem wie bei der einfachen Regression.

Dabei gilt jedoch das Prinzip der Parsimonität, der Sparsamkeit. Dies bedeutet, dass versucht wird, mit möglichst wenig Variablen möglichst viel Varianz aufzuklären. Ziel ist also nicht, mit 78 Variablen fast 100% der Varianz zu erklären, sondern diejenigen wenigen Variablen zu finden bzw. aus der Theorie, dem aktuellen Forschungsstand abzuleiten, die einen möglichst großen Teil der Variabilität der Werte aufklären.

Doch nun zur Umsetzung: Gehe wieder auf "Analysieren", "Regression", "Linear". Im sich öffnenden Fenster verschiebst du wieder "Wie viele Stunden Fernsehen pro Tag" in das Feld "Abhängige Variable". In das Feld "Unabhängige Variable" verschiebst du wie vorher "Höchstes abgeschlossenes Schuljahr" sowie zudem "Geschlecht" und "Alter". Wenn du nun auf "OK" klickst, erhältst du den nachfolgenden Output.

Was du hier ablesen kannst, ist Folgendes:

Bei "Aufgenommene/Entfernte Variablen" wird wie vorher angegeben, welche Variablen bzw. Prädiktoren in das Regressionsmodell aufgenommen wurden. In diesem Fall alle (ich gehe hier nicht auf die verschiedenen Berechnungsmethoden wie vorwärts, rückwärts etc. ein – bitte in einschlägigen Lehrbüchern nachlesen).
Bei "Modellzusammenfassung" findest du die Varianzaufklärung. Bei der multiplen Regression liest du bei "Korrigiertes R-Quadrat" ab und siehst .071. Wenn du das mit 100 multiplizierst, erhältst du den Prozentsatz der aufgeklärten Varianz.
Das wären nur 7.1%, also nach wie vor nicht besonders viel. D. h., dass durch die Hinzunahme der beiden Prädiktoren nur weitere 0.3% der Varianz aufgeklärt wurden. Daher kann man sich hier die berechtigte Frage stellen, ob es im Sinne der Parsimonität nicht vielleicht sinnvoller wäre, nur bei unserem ersten Prädiktor "Höchstes abgeschlossenes Schuljahr" zu bleiben oder im Datensatz nach anderen sinnvollen Prädiktoren zu suchen, mit denen mehr Varianz aufgeklärt werden kann (kleine Fleißaufgabe für dich!).

Die Tabelle "ANOVA" zeigt die Ergebnisse des F-Tests. Die getestete Nullhypothese lautet: Keiner der Prädiktoren hat einen Einfluss auf das Kriterium. Sobald der Test wie hier signifikant wird (.000), bedeutet das, dass mindestens einer der Prädiktoren einen signifikanten Einfluss auf das Kriterium hat. Welcher das ist, wird jedoch nicht angezeigt
Um das herauszufinden, sehen wir wieder in die Tabelle "Koeffizienten". In der Spalte "Regressionskoeffizient ß" siehst du wie oben in der ersten Zeile die Konstante a sowie darunter die Effekte der einzelnen Prädiktoren in der Original-Einheit. Jetzt könntest du wieder die Regressionsgerade aufstellen, hier: y = 4.955 – 0.192x1 + 0.045x2+0.008x3.
Wie du siehst, hat sich der Einfluss des höchsten abgeschlossenen Schuljahrs im Vergleich zum Output bei der einfachen Regression leicht verringert. Meist verändern sich die Effekte der Prädiktoren (die sog. ß-Koeffizienten), wenn man Variablen hinzunimmt oder entfernt. Stell' dir das systemisch vor oder wie ein Mobile, das aus Papiervögeln besteht. In dem Moment, in dem du einen Papiervogel entfernst oder hinzufügst, ändert sich das Gefüge und Zusammenspiel der anderen. So ähnlich ist das hier auch.
Da die Effekte der Prädiktoren in den Einheiten vorliegen, in denen sie gemessen wurden, lassen sie sich nicht direkt vergleichen. Dafür gibt es jedoch die Spalte "Standardisierte Koeffizienten". Hier kannst du den Effekt der einzelnen Koeffizienten/Prädiktoren direkt miteinander vergleichen.
Kleiner Hinweis: nur weil ein Prädiktor negativ ist, heißt das nicht, dass er einen kleineren Effekt hat! Es gilt beim Vergleichen von Koeffizienten zunächst nur der Betrag, der absolute Effekt. Und dieser kann positiv oder negativ sein.
Nun zum Vergleich der Prädiktoren bei "Standardisierte Koeffizienten": hier sieht man, dass das höchste abgeschlossene Schuljahr bei weitem den größten Effekt hat (-.249), gefolgt vom Alter (.063)und dann vom Geschlecht (.010).
Jetzt sehen wir uns noch ganz rechts bei "Sig." an, ob die einzelnen Prädiktoren einen signifikanten Effekt auf das Kriterium haben: .000 beim höchsten abgeschlossenen Schuljahr ist ein hochsignifikantes Ergebnis. Das Geschlecht ist kein signifikanter Prädiktor (.618), das Alter hingegen schon (.002), ebenfalls hochsignifikant (die Signifikanz der Konstante in der ersten Zeile interessiert nicht). Hier zeigt sich übrigens am Beispiel des Alters, dass ein Effekt auch dann (hoch-) signifikant sein kann, wenn er verschwindend gering ist!
Es macht also Sinn, das Geschlecht aus dem Modell zu entfernen. Hier siehst du den Output für das Modell mit den Prädiktoren Alter und höchstes abgeschlossenes Schuljahr (man könnte jedoch, wie bereits vorher erwähnt, auch das Alter ohne große Varianzaufklärungs-Verluste aus dem Modell entfernen und wäre dann wieder bei obigem Output für die einfache Regression).

Fazit: Die Fernsehdauer pro Tag lässt sich zu einem kleinen Teil (7.1%) aus dem höchsten abgeschlossenen Schuljahr und dem Alter vorhersagen. Der Effekt des Prädiktors von -0.192 besagt, dass mit jedem weiteren abgeschlossenen Schuljahr die Fernsehdauer um knappe 12min absinkt (negativer Zusammenhang: je höher das Schuljahr, desto geringer die Fernsehdauer). Und der nahezu vernachlässigbare Effekt des Alters von 0.008 bedeutet, dass mit jedem Lebensjahr die Fernsehdauer um ein paar Sekunden ansteigt (positiver Zusammenhang).

Fühlst du dich lost im dschungel der Statistischen methoden?

Dann schnapp' dir das E-Book (0,-€):

endlich durchblick in statistik!

in 4 einfachen schritten zur wahl der richtigen methode

Geschafft!

Sehr tapfer! Ich hoffe, es fällt dir nun wieder ein Stück leichter, dich in den Ergebnistabellen zurechtzufinden!

Und im Sinne von "Turning insight into action" hast du ja vielleicht Lust, dir gleich einen weiteren Datensatz zu schnappen und das Ganze anzuwenden.

Oder zumindest dreimal hintereinander "Homoskedastizität" zu sagen. Und wenn du das beherrschst, kannst du dich dann an dreimal "Heteroskedastizität" heranwagen.

Jetzt ist aber erst mal Zeit für eine wohlverdiente Belohnung!

KENNST DU SCHON MEINEN YOUTUBE-KANAL?

Guckst du hier:

SPSS Outputs lesen leicht gemacht! Teil 2: Zusammenhangsmaße

Neue Runde, neues Glück! Nachdem wir uns in Teil 1 tapfer durch die deskriptiven Statistiken (inkl. Chi-Quadrat) kämpften, geht es nun mit Zusammenhangsmaßen für ordinalskalierte und metrische Variablen weiter, gefolgt von der Prüfung auf Normalverteilung der Daten. Letzteres ist ein wesentlicher Baustein deiner Statistik-Toolbox, da die meisten Verfahren in der Psychologie auf der Annahme von Normalverteilung beruhen. Und da wär's ganz gut, wenn du wüsstest, wie man das macht.

Damit du alles selbst nachvollziehen kannst, schreibe ich dir wieder die jeweiligen Schritte dazu, um die abgebildeten Ergebnistabellen zu erhalten.

Hast du was anderes gesucht? Klick' hier für SPSS für die deskriptive Statistik, hier für t-Test und Regression sowie hier für die Varianzanalyse.

Inhaltsverzeichnis

Zusammenhangsmaße für ordinalskalierte Daten

Alternativer Weg zu Zusammenhangsmaßen für ordinalskalierte Daten

Zusammenhangsmaße bei metrischen Variablen

Prüfung auf Normalverteilung der Daten

Grafische Überprüfung, ob Normalverteilung vorliegt

Wo du Datensätze zum Üben herbekommst

Datensätze bekommst du auf verschiedensten Seiten im Internet sowie direkt im Programm SPSS. Ich empfehle z. B. die Datensätze von Andy Field, die hier zu finden sind.

Praktischerweise liefert SPSS aber auch eine Fülle von Datensätzen mit, die du folgendermaßen erreichen kannst:

Windows: C:/Programme/IBM/SPSS/Statistics/27 (oder eine andere Version)/Samples/German

Mac: Im Finder: Applications oder Programme/IBM/SPSS/Statistics/27 (oder eine andere Version)/Samples/German

Zusammenhangsmaße für ordinalskalierte Daten

Hier gibt es, wie so oft bei SPSS, zwei Wege zum Glück. Ich zeige dir zunächst die Variante über den Weg, den du bereits aus Teil 1 kennst.

Gehe auf "Analysieren", "Deskriptive Statistiken", "Kreuztabellen". Im sich öffnenden Fenster klickst du die beiden ordinalskalierten Variablen "Höchster Abschluss" (Zeilen) sowie "Allgemeine Zufriedenheit" (Spalten) an. Es macht für das Ergebnis übrigens keinerlei Unterschied, welches Merkmal du den Zeilen oder Spalten zuordnest.

Jetzt klickst du auf das Kästchen "Statistiken" auf der rechten Seite und setzt bei "Kendalls-Tau-b" einen Haken (auf gar keinen Fall zu verwechseln mit Kendalls-Tau-c ; ) – hier braucht es mal wieder Humor, um nicht zu verzweifeln...), drückst auf "weiter" und dann auf "OK". Du erhältst den nachfolgenden Output.

Was du hier ablesen kannst, ist Folgendes:

Oben bei "Verarbeitete Fälle" siehst du, bei wie vielen Fällen/Personen das Merkmal erfasst wurde, nämlich bei 2797. Von 1.2% aller Probanden fehlten die Werte.
In der nachfolgenden Kreuztabelle werden die Häufigkeiten für die einzelnen Merkmalskombinationen aufgeführt. Beispiel: Wie viele Menschen hatten einen High School-Abschluss und gaben an, ziemlich zufrieden zu sein? Schau' in der Zeile "High School" und der Spalte "Ziemlich zufrieden" – da steht 889.

Was jedoch vermutlich am meisten interessiert, sind die Ergebnisse in der letzten Tabelle "Symmetrische Maße". Hier wandert unser geschultes Auge einmal in der ersten Zeile direkt rechts neben "Kendall-Tau-b" zu "Wert": dort steht "-.111". Was heißt das?
Kendalls Tau kann wie der Korrelationskoeffizient r nach Bravais-Pearson nur Werte zwischen -1 und +1 annehmen. Ein Wert von -.111 ist relativ klein und somit als schwacher negativer Zusammenhang einzustufen.
In der Spalte "Näherungsweise Signifikanz" kannst du den p-Wert ablesen und erkennen, ob du ein signifikantes Ergebnis hast. Da sich der p-Wert ganz eindeutig weit unter der üblichen magischen Grenze von .05 befindet, liegt ein hochsignifikantes Ergebnis vor: ".000" bedeutet, dass irgendwann mal nach den drei Nullen eine Zahl kommt, die allerdings hier nicht mehr ausgegeben wird. Das "Näherungsweise" in der Spaltenüberschrift muss uns nicht weiter stören.
Zusammenfassend lässt sich also feststellen, dass zwischen dem erreichten Abschluss bzw. Bildungsgrad und der allgemeinen Zufriedenheit ein schwacher, jedoch signifikanter negativer Zusammenhang besteht.
Dies würde bedeuten: JE HÖHER DIE BILDUNG, DESTO NIEDRIGER DIE ALLGEMEINE ZUFRIEDENHEIT.
Was könnten wir daraus für uns persönlich lernen? Am besten nicht weiter studieren, denn dann sinkt die allgemeine Zufriedenheit...

aber aufgepasst:

Immer die Operationalisierung bzw. Kodierung der Variablen in der Datenansicht ansehen!

Sonst besteht die gefahr einer fehlinterpretation.

Würden wir uns die Kodierung nicht ansehen und einfach davon ausgehen, dass sowohl bei "Höchster Abschluss" als auch bei "Allgemeine Zufriedenheit" höhere Werte automatisch einen höheren Abschluss bzw. mehr Zufriedenheit bedeuten, würden wir, wie oben erfolgt, das Ergebnis falsch interpretieren.

Ein Blick in die Daten verrät nämlich, dass höheren Abschlüssen wie erwartet höhere Zahlen zugeordnet wurden – wohingegen die Zufriedenheit gegenläufig kodiert ist: 1 ist "Sehr zufrieden" und 3 "Nicht sehr zufrieden". Guckst du: geh' in die Datenansicht, such' die interessierenden Variablen und klick' in der Spalte "Werte" das Kästchen mit den drei Punkten an. Dann erhältst du die folgenden Fenster:

Da der Zusammenhang negativ ist, gehen hohe Werte in dem einen Merkmal mit niedrigen Werten im anderen einher (und umgekehrt).
Nun kannst du an der Kodierung ablesen, dass eine höhere Zahl bei "Höchster Abschluss" mit einer niedrigen Zahl bei "Allgemeine Zufriedenheit" einhergeht.
Daraus folgt: JE HÖHER DIE BILDUNG, DESTO HÖHER DIE ALLGEMEINE ZUFRIEDENHEIT!
Heißt für uns: doch weiter studieren...

Alternativer Weg zu Zusammenhangsmaßen für ordinalskalierte Daten

Gehe auf "Analysieren", "Korrelation", "Bivariat". Im sich öffnenden Fenster klickst du wieder die beiden ordinalskalierten Variablen "Höchster Abschluss" sowie "Allgemeine Zufriedenheit" an und verschiebst sie in das Feld "Variablen".

Jetzt setzt du darunter bei "Korrelationskoeffizienten" bei Kendall-Tau-b sowie Spearman einen Haken (und nimmst den Haken bei Pearson raus), drückst auf "weiter" und dann auf "OK". Du erhältst folgenden Output:

In der oberen Hälfte bei "Kendall-Tau-b" kannst du ganz rechts in der obersten Zeile wieder die Stärke der Korrelation zwischen "Höchster Abschluss" und "Allgemeine Zufriedenheit" ablesen: -.111. Das Ergebnis ist logischerweise das Gleiche wie oben.
In der Zeile darunter findest du wieder den dazugehörigen p-Wert von .000, also ein hochsignifikantes Ergebnis, was auch durch die beiden Sternchen in der ersten Zeile bei -.111 dargestellt wird..
Die gleiche Information findest sich ab der 4. Zeile – SPSS stellt die Ergebnisse bei Korrelationen immer doppelt dar.
Im Abschnitt "Spearman-Rho" findest du den Rangkorrelationskoeffizienten nach Spearman, der ebenfalls normiert ist und nur Werte zwischen -1 und +1 annehmen kann.
Hier schaust du auch wieder in die erste Zeile und siehst den Wert -.123, der eine ganz ähnliche Aussage wie Kendalls Tau hat: es liegt ein schwacher negativer Zusammenhang vor.
Das Ergebnis der Testung auf Signifikanz steht wieder direkt darunter: .000. Auch dieser Zusammenhang ist hochsignifikant. Also bleibt es dabei: JE HÖHER DIE BILDUNG, DESTO HÖHER DIE ALLGEMEINE ZUFRIEDENHEIT!

Zusammenhangsmaße bei metrischen Variablen

Zum Abschluss des bunten Korrelationsreigens wollen wir uns das wohl am häufigsten verwendete Zusammenhangsmaß ansehen: den Korrelationskoeffizienten r nach Bravais-Pearson – oder auch Produkt-Moment-Korrelation genannt.

Gehe dazu wieder auf "Analysieren", "Korrelation", "Bivariat". Im sich öffnenden Fenster klickst du jetzt zwei metrische Variablen an, nämlich "Alter" (Verhältnisskala) und "Wie viele Stunden Fernsehen pro Tag" (Absolutskala) und verschiebst sie in das Feld "Variablen".

Da "Pearson" schon blau markiert erscheint, drückst du einfach nur auf "OK" und erhältst den nachfolgenden Output.

Was du hier ablesen kannst, ist Folgendes:

Wie schon oben beschrieben, ist die Information wieder doppelt enthalten: einmal rechts oben bei "Alter" und links unten bei "Wie viele Stunden Fernsehen pro Tag". Es reicht hier also, bei einer der Variablen die Werte abzulesen – wir machen das nun bei "Alter".
In der ersten Zeile ganz rechts steht der Wert von r, also die Stärke der Korrelation zwischen den Variablen: .107 oder 0.107. Gemäß der in der Statistik gängigen Konvention wird dies als schwacher positiver Zusammenhang eingestuft.
Um zu schauen, ob dieser Zusammenhang signifikant ist, schaust du wieder in der Zeile direkt darunter und siehst: .000 bzw. 0.000 – es liegt ein hochsignifikanter Zusammenhang vor, was auch durch die beiden Sternchen in der ersten Zeile bei .107 dargestellt wird.
Fazit: Es besteht ein (hoch-) signifikanter positiver Zusammenhang zwischen dem Alter und der Anzahl an Stunden vor dem Fernseher pro Tag im Sinne von: JE ÄLTER MAN WIRD, DESTO MEHR SIEHT MAN FERN!
Das stimmt nicht gerade hoffnungsfroh fürs Alter...

Prüfung auf Normalverteilung der Daten

Die meisten Verfahren innerhalb der Psychologie beruhen auf der Annahme bzw. Voraussetzung, dass die Daten normalverteilt sind. Ob dem jedoch tatsächlich so ist, lässt sich mit SPSS ganz einfach überprüfen.

Gehe dazu auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du wieder die Variablen "Alter" und "Wie viele Stunden Fernsehen pro Tag" aus und verschiebst sie in das Feld "Abhängige Variablen" (da die Normalverteilung eine stetige Verteilung ist, wählen wir hier metrische, stetige Variablen aus).

Jetzt klickst du rechts auf "Diagramme" und setzt bei "Normalverteilungsdiagramm mit Tests" einen Haken, drückst auf "weiter" und dann auf "OK". Du erhältst den nachfolgenden Output.

Was du hier ablesen kannst, ist Folgendes:

Hier werden immer zwei Tests für dieselbe Fragestellung aufgeführt: einmal nach Kolmogorov-Smirnov und einmal nach Shapiro-Wilk. In den meisten Fällen kommen beide Tests zum gleichen Ergebnis, also nicht verwirren lassen.
Beide Tests überprüfen die NULLHYPOTHESE, DASS NORMALVERTEILUNG VORLIEGT!
Die Alternativhypothese besagt dementsprechend, dass keine Normalverteilung vorliegt.
Oder anders ausgedrückt: zeigt sich hier ein signifikanter p-Wert, so liegt keine Normalverteilung vor!
Um das herauszufinden, schaust du nur in der Spalte "Signifikanz" und siehst hier bei beiden Variablen und beiden Tests jeweils hochsignifikante Ergebnisse: .000 bzw. 0.000.
Fazit: Es liegt weder beim Alter noch bei der Fernsehdauer pro Tag eine Normalverteilung vor!

Grafische Überprüfung, ob Normalverteilung vorliegt

Um dir die Ergebnisse der Tests auf Normalverteilung auch noch grafisch anzusehen, geh' auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse", gib wieder die beiden Variablen ein und drück' rechts auf "Diagramme". Dort kannst du rechts unterhalb von "Stamm-Blatt" bei "Histogramm" einen Haken setzen.

Du erhältst folgende Diagramme, bei denen sofort erkennbar ist, dass keine Normalverteilung vorliegt, da sie keine symmetrische Glockenform aufweisen:

Fühlst du dich lost im dschungel der Statistischen methoden?

Dann schnapp' dir das E-Book (0,-€):

endlich durchblick in statistik!

in 4 einfachen schritten zur wahl der richtigen methode

Geschafft!

So, das war's für Teil 2! Ich hoffe, es fällt dir nun etwas leichter, dich in den Ergebnistabellen zurechtzufinden! Vielleicht hast du ja sogar Lust, dir gleich einen weiteren Datensatz zu schnappen und das Ganze anzuwenden.

Jetzt ist aber erst mal Zeit für Donuts!

KENNST DU SCHON MEINEN YOUTUBE-KANAL?

Guckst du hier:

SPSS Outputs lesen leicht gemacht! Teil 1: Deskriptive Statistik

Seinerzeit, als noch schummriges Kerzenlicht statt Neonröhren das Arbeitszimmer der Statistiker*innen erhellte, führte man geduldig die komplexesten Berechnungen per Hand durch – nur um dann möglicherweise von einem Kollegen auf einen minimalen Fehler in Zeile 68 hingewiesen zu werden...

Diese düsteren Zeiten sind dankenswerterweise vorbei, denn heute genügen ein paar Klicks an der richtigen Stelle, und schon spuckt SPSS (oder jedes andere Statistik-Programm) bereitwillig gefühlte 50.000 Zahlen in umfangreichen Tabellen aus.

Doch das Problem, das sich uns trotz blitzschneller Computer-Berechnungen in der heutigen Zeit (nicht nur bei SPSS...) stellt, ist: Wie sollen wir aus dem Overload an Informationen das Wesentliche herauslesen? Wohin sollen wir unser Augenmerk richten? Welche der vielen bunten Zahlen sind relevant? Wie erkenne ich, ob ein Ergebnis signifikant ist?

Um etwas Licht ins undurchdringliche Dickicht der Zahlen zu bringen, zeige ich dir in diesem und den nachfolgenden Teilen zum Thema SPSS Outputs, wo du was ablesen und – nicht ganz unwesentlich – wie du das Ganze interpretieren kannst!

Dabei beginnen wir diesmal mit den Häufigkeiten und der "Explorativen Datenanalyse", gefolgt von der Analyse des Zusammenhangs zwischen nominalskalierten Daten. In den nächsten Teilen folgen dann weitere Methoden.

Damit du alles selbst nachvollziehen kannst, schreibe ich dir die jeweiligen Schritte dazu, um die abgebildeten Ergebnistabellen zu erhalten.

Hast du was anderes gesucht? Klick' hier für SPSS für Zusammenhangsmaße, hier für t-Test und Regression sowie hier für die Varianzanalyse.

Inhaltsverzeichnis