SPSS Outputs lesen leicht gemacht! Teil 1: Deskriptive Statistik

Seinerzeit, als noch schummriges Kerzenlicht statt Neonröhren das Arbeitszimmer der Statistiker*innen erhellte, führte man geduldig die komplexesten Berechnungen per Hand durch – nur um dann möglicherweise von einem Kollegen auf einen minimalen Fehler in Zeile 68 hingewiesen zu werden...

Diese düsteren Zeiten sind dankenswerterweise vorbei, denn heute genügen ein paar Klicks an der richtigen Stelle, und schon spuckt SPSS (oder jedes andere Statistik-Programm) bereitwillig gefühlte 50.000 Zahlen in umfangreichen Tabellen aus.

Doch das Problem, das sich uns trotz blitzschneller Computer-Berechnungen in der heutigen Zeit (nicht nur bei SPSS...) stellt, ist: Wie sollen wir aus dem Overload an Informationen das Wesentliche herauslesen? Wohin sollen wir unser Augenmerk richten? Welche der vielen bunten Zahlen sind relevant? Wie erkenne ich, ob ein Ergebnis signifikant ist?

Um etwas Licht ins undurchdringliche Dickicht der Zahlen zu bringen, zeige ich dir in diesem und den nachfolgenden Teilen zum Thema SPSS Outputs, wo du was ablesen und – nicht ganz unwesentlich – wie du das Ganze interpretieren kannst! 

Dabei beginnen wir diesmal mit den Häufigkeiten und der "Explorativen Datenanalyse", gefolgt von der Analyse des Zusammenhangs zwischen nominalskalierten Daten. In den nächsten Teilen folgen dann weitere Methoden.

Damit du alles selbst nachvollziehen kannst, schreibe ich dir die jeweiligen Schritte dazu, um die abgebildeten Ergebnistabellen zu erhalten.

Dabei gehe ich davon aus, dass du statistisches Vorwissen hast und dich mit der grundsätzlichen Bedienung von SPSS auskennst. Natürlich kannst du dir alles auch nur so durchlesen, ohne die Daten selbst aufzurufen. 

Hast du was anderes gesucht? Klick' hier für SPSS für Zusammenhangsmaße, hier für t-Test und Regression sowie hier für die Varianzanalyse.

icon-logo-statistik

Wo du Datensätze zum Üben herbekommst

Datensätze bekommst du auf verschiedensten Seiten im Internet sowie direkt im Programm SPSS. Ich empfehle z. B. die Datensätze von Andy Field, die hier zu finden sind. 

Praktischerweise liefert SPSS aber auch eine Fülle von Datensätzen mit, die du folgendermaßen erreichen kannst:

Windows: C:/Programme/IBM/SPSS/Statistics/27 (oder eine andere Version)/Samples/German

Mac: Im Finder: Applications oder Programme/IBM/SPSS/Statistics/27 (oder eine andere Version)/Samples/German

icon-logo-statistik

HÄUFIGKEITEN

Die nachfolgenden Outputs entstammen alle dem Datensatz survey_sample.sav im SPSS-Samples-Folder, der knackige 46 Variablen und 2.832 Fälle aus den USA enthält. Bitte suche und öffne ihn – und los geht's mit den Häufigkeiten:

Gehe auf "Analysieren", "Deskriptive Statistiken", "Häufigkeiten". Im sich öffnenden Fenster wählst du die Variablen Familienstand (Nominalskala), Anzahl an Kindern (Absolutskala)und höchster Abschluss (Ordinalskala) aus und drückst auf "OK". Du erhältst die untenstehende Ergebnistabelle.

Was du hier ablesen kannst, ist Folgendes:

  • Oben bei "Statistiken" siehst du, bei wievielen Fällen/Personen das Merkmal erfasst wurde. Beispielsweise wurde bei 2825 Personen erfragt, wieviele Kinder sie haben, und bei 2822 der höchste Abschluss. In der Zeile darunter ist angegeben, bei wievielen Fällen die Angaben fehlen.
  • In den nachfolgenden Tabellen werden die Häufigkeiten für jedes einzelne Merkmal separat aufgeführt
spss-haeufigkeiten-1
  • Die Häufigkeiten der einzelnen Ausprägungen siehst du in der 1. Spalte (siehe unten): z. B.: Wieviele Menschen waren nie verheiratet? 663
  • In der Spalte daneben kannst du deren prozentualen Anteil an der Gesamtstichprobe ablesen: die 663 Unverheirateten machten einen prozentualen Anteil von 23.4% der Gesamtstichprobe aus. Knapp ein Viertel aller Personen waren also unverheiratet. 
  • Wenn du die prozentualen Anteile durch 100 teilst, erhältst du die relativen Häufigkeiten – bei den 663 Unverheirateten also 0.23.
  • Manchmal fehlen auch Werte, da keine Angaben gemacht wurden. Dies kannst du in der Zeile "Fehlend" erkennen. 
  • Die Spalte "Gültige Prozente" bezieht sich hingegen auf alle Fälle mit gültigen Angaben, d. h. hier fehlen keine Angaben.
spss-output-familienstand
  • Schließlich interessiert noch die Spalte "Kumulierte Prozente". Dort kannst du ablesen, wieviel Prozent aller Werte sich bis zu einem bestimmten Punkt angesammelt haben (oder oberhalb eines bestimmten Wertes liegen).
  • Achtung: Dies macht nur Sinn, wenn deine Daten mindestens ordinalskaliert sind!
  • Eine Fragestellung hierzu könnte z. B. sein: Wieviel Prozent aller Personen hatten höchstens einen Junior College Abschluss, sprich: Junior College oder einen niedrigeren Abschluss? Dafür schaust du unten in der Zeile "Junior College" nach und siehst: 75.8%. Gut drei Viertel aller Befragten hatten also höchstens einen Junior College Abschluss.
abschluesse-spss
  • Die umgekehrte Fragestellung lässt sich natürlich auch mit ein wenig Rechnen beantworten: Wieviel Prozent aller Personen hatten mindestens einen Junior College Abschluss?
  • Dazu musst du von allen (100%) den Anteil ausschließen, der einen niedrigeren Abschluss hatte: Nimm' hierfür 100% und zieh' davon die Prozente unterhalb von Junior College ab, also alle mit niedrigerem Abschluss: 100 – 68.4 = 31.6%. Knapp ein Drittel aller Befragten hatten entweder einen Junior College-, Bachelor- oder einen anderweitigen Universitätsabschluss.
icon-logo-statistik

Kleine Erinnerung zwischendurch:

SPSS rechnet ALLES für dich – auch wenn es inhaltlich keinen Sinn ergibt! 

Daher ist Mitdenken angesagt. 

In der obigen Tabelle ist es z. B. wenig sinnvoll, die kumulierten Prozente beim Familienstand zu interpretieren (das wäre eine Fragestellung wie "Welcher Prozentsatz ist höchstens verwitwet?") – denn das würde implizieren, dass eine Rangordnung besteht im Sinne von: Geschieden ist höher/besser als verwitwet...

chamaeleon-bambus-spss

EXPLORATIVE DATENANALYSE

Der nächste Menüpunkt bei "Analysieren", "Deskriptive Statistiken" ist die "Deskriptive Statistik". Da diese Auswertungen jedoch auch in der deutlich umfassenderen Auswertung der "Explorativen Datenanalyse" enthalten sind, begeben wir uns gleich zu letzterer.

Gehe auf "Analysieren", "Deskriptive Statistiken", "Explorative Datenanalyse". Im sich öffnenden Fenster wählst du wieder die Variablen Familienstand (Nominalskala), Anzahl an Kindern (Absolutskala) und höchster Abschluss (Ordinalskala) aus, verschiebst sie in das Feld "Abhängige Variablen" und drückst auf "OK". 

Was du hier ablesen kannst, ist Folgendes:

  • Bei "Verarbeitete Fälle" siehst du, welcher Prozentsatz der Gesamtstichprobe einbezogen wurde (99.3%) und wieviele Fällen/Personen fehlen (19). 
  • In der langen Tabelle Deskriptive Statistik werden nun für jedes Merkmal getrennt die deskriptiven Statistiken aufgeführt. 
  • Hier gilt wie oben, dass es wichtig ist, das jeweilige Skalenniveau der einzelnen Merkmale zu kennen, um zu wissen, was tatsächlich in die Interpretation einbezogen werden darf.
  • Beim Familienstand (Nominalskala) macht die Interpretation der meisten Variablen keinen Sinn, da z. B. ein Mittelwert in diesem Fall keine sinnvolle inhaltliche Bedeutung hat. Was also kann man hier verwenden bzw. herauslesen? Gar nichts! Denn bei nominalskalierten Merkmalen darf man nur auszählen und den Modus/Modalwert bestimmen – dieser ist jedoch nicht in der Tabelle enthalten und muss bei "Häufigkeiten" angefordert werden.
explorative-datenanalyse-spss
statistik-gym-cover
Brauchst du Hilfe beim lernen von statistik?
Dann komm' zu Statistik-gym,
dem Online-Fitnessstudio für Statistik, 
das dich fit für die Prüfung macht!
statistik-gym
Eine Mitgliedschaft wie bei Netflix oder Spotify, nur eben für Statistik im Bachelor, 
die dir hilft, dieses Fach endlich zu verstehen & die Prüfung zu meistern!

Darin bekommst du:

  • Eine monatlich wachsende Bibliothek von Videos & Audios
  • Live Frage- & Antwort-Sessions
  • Eine Roadmap, mit der du zielsicher durch den Dschungel der Statistik geführt wirst
  • Alles rund um Mindset, Motivation & Lerntechniken
  • Downloads wie Übungsblätter, Steckbriefe & Probeklausuren
  • Webinare / live Teachings
  • Du kannst jederzeit in der Community Fragen stellen & dich mit anderen austauschen!

Und dann macht Statistik vielleicht sogar Spaß!

Klingt gut? Dann klick' hier:

icon-logo-statistik

Variable "Anzahl Kinder"

anzahl-kinder-spss
  • Am Mittelwert lässt sich ablesen, dass die Probanden durchschnittlich knappe zwei Kinder hatten.
  • In der Spalte daneben ist der Standardfehler aufgeführt, welcher sehr klein ist: .032 oder 0.032 (die 0 vor dem Komma wird bei SPSS nicht angegeben). Man kann also davon ausgehen, dass die durchschnittlich 1.82 Kinder eine recht zuverlässige Schätzung für die Grundgesamtheit darstellen. Der sehr kleine Standardfehler wird durch die sehr große Stichprobe von 2.832 Personen bedingt.
  • Das Konfidenzintervall des Mittelwerts gibt an, dass man mit einer Wahrscheinlichkeit von 95% davon ausgehen kann, dass der wahre Mittelwert in der Population im Bereich zwischen 1.76 und 1.89 liegt. Das ändert trotzdem nichts an der ersten Aussage, dass die Menschen im Durchschnitt knapp zwei Kinder hatten.
  • Das getrimmte Mittel ist ähnlich wie der Mittelwert, jedoch robuster gegenüber Ausreißern. Hier liegt es bei 1.67, ist also etwas geringer als der Mittelwert. Auf Menschen bezogen, die bekanntermaßen nicht halb oder zu 10% existieren können, bleibt es dennoch bei der Aussage von durchschnittlich knapp 2 Kindern.
  • Der Median liegt bei 2: 50% der Personen hatten weniger als oder genau 2 Kinder (also 0 bis 2 Kinder), wohingegen 50% 2 oder mehr Kinder hatten.
  • Wenn man nun wissen will, wieviel denn dieses "MEHR" an Kindern bedeutet, schaut man auf den Wert, der bei Maximum angegeben ist: hier steht die 8. Es gab also Menschen in der Stichprobe, die 8 Kinder hatten – während bei Minimum abzulesen ist, dass es auch Personen mit 0 Kindern gab.
  • Die Differenz von Maximum und Minimum ergibt die Spannweite, die wir auch aus dem Alltag kennen. Hier ist es die 8.
anzahl-kinder-spss
  • Die Varianz wird aufgrund der quadratischen Einheiten nicht zur Interpretation verwendet.
  • Dafür kann man ihre "Tochter", die Standardabweichung, wunderbar zur Interpretation verwenden. Diese sagt aus, wie weit die Daten typischerweise um den Mittelwert herum streuen.
  • Oder anders ausgedrückt: Wie stark unterscheiden sich die Menschen in einem bestimmten Merkmal?
  • Hier hatten die Menschen typischerweise zwischen einem und vier Kindern: Mittelwert (1.82) plus/minus eine Standardabweichung (1.69). Da wir es aber mit "ganzen" Menschen zu tun haben, macht es wenig Sinn, anzugeben, dass die Versuchspersonen zwischen 0.13 und 3.51 Kinder hatten. Denn inhaltlich wäre das die Bandbreite zwischen einem linken Unterarm eines Kindes (0.13) bis hin zu 3 Kindern und einem halben (das halbe Kind könnte wahlweise die rechte oder linke Körperhälfte sein – oder auch die obere bzw. untere Körperhälfte). Für eine sinnvolle Aussage ist also gesunder Menschenverstand und Runden gefragt – wobei in einer Bachelor- oder Master-Arbeit natürlich auch die konkreten Werte (0.13 und 3.51 ) angegeben werden müssen.
  • Der Interquartlibereich besagt, dass die "Spannweite" der mittleren 50% aller Werte (zwischen den unteren 25% und den oberen 75%) 3 betrug. Dieses Maß ist die Länge der Box beim Boxplot.  
  • Die Schiefe drückt aus, ob die Verteilung der Werte symmetrisch oder links- bzw. rechtssteil ist. Eine 0 würde bedeuten, dass die Verteilung symmetrisch ist. Linkssteile Verteilungen weisen negative Werte auf, rechtssteile positive. Hier liegt ein positiver Wert vor (1.071) – daher ist die Verteilung rechtssteil und der Gipfel ist nach rechts verschoben..
  • Die Kurtosis drückt aus, wie spitz oder "platt" eine Verteilung aussieht. Wenn eine Normalverteilung vorliegt, ist der Wert 0. Ist der Wert kleiner 0, liegt eine "plattere" Kurve vor. Ist er wie hier größer 0, nämlich 1.39, dann sieht die Verteilung spitz aus.
chamaeleon-bambus-spss

KREUZTABELLEN, CHI-QUADRAT, KONTINGENZKOEFFIZIENT, PHI & CRAMÉRS V

Gehe auf "Analysieren", "Deskriptive Statistiken", "Kreuztabellen". Im sich öffnenden Fenster klickst du die beiden nominalskalierten Variablen Familienstand (Zeilen) sowie "Glaube an Leben nach dem Tod" (Spalten) an. Es macht für das Ergebnis übrigens keinerlei Unterschied, welches Merkmal du den Zeilen oder Spalten zuordnest. 

Jetzt klickst du auf das Kästchen "Statistiken" auf der rechten Seite und setzt bei "Chi-Quadrat", "Kontingenzkoeffizient", "Phi und Cramer-V" einen Haken, drückst auf "weiter" und dann auf "OK". Du erhältst den nachfolgenden Output.

Was du hier ablesen kannst, ist Folgendes:

  • Bei "Verarbeitete Fälle" siehst du, bei wievielen Fällen/Personen das Merkmal tatsächlich erfasst wurde: nämlich bei 2066 Personen, wobei die Werte von 766 Personen fehlen.
  • Die Kreuztabelle Familienstand * Glaube an Leben nach dem Tod zeigt die Häufigkeiten für bestimmte Merkmalskombinationen an. Beispielsweise fanden sich 166 Personen in der Stichprobe, die verheiratet waren und nicht an ein Leben nach dem Tod glaubten – sowie 166, die verwitwet waren und durchaus an ein Leben nach dem Tod glaubten. 
kreuztabellen-spss
icon-logo-statistik

Chi-Quadrat-Test

  • Der Chi-Quadrat-Test überprüft, ob es einen Zusammenhang zwischen zwei nominalskalierten Merkmalen gibt. Die Nullhypothese lautet hier: Es besteht kein Zusammenhang zwischen dem Familienstand und dem Glauben an ein Leben nach dem Tod.
  • Um diese Frage zu beantworten, wandert unser geschulter Blick einzig und allein in die erste Zeile – und dort in die letzte Spalte (Asymptotische Signifikanz). Hier findet sich ein p-Wert von .518 (oder 0.518).
chi-quadrat-spss-outpu
  • Da dieser Wert deutlich größer als das übliche Signifikanzniveau von 5% ist, also deutlich größer als 0.05 (oder .05), besteht kein Zusammenhang zwischen dem Familienstand und dem Glauben an ein Leben nach dem Tod.
  • Immer die Fußnoten beachten! Wenn es Zellen in der Kreuztabelle gibt, in denen erwartete Häufigkeiten von unter 5 vorkommen, kann der Chi-Quadrat-Test zu einem ungenauen oder falschen p-Wert führen. Da dies hier aber nicht der Fall ist, ist alles gut...
icon-logo-statistik

Phi, Cramérs V & Kontingenzkoeffizient

  • Zu guter Letzt sehen wir uns noch drei weitere Zusammenhangsmaße für nominalskalierte Daten an.
  • Alle drei weisen einen Wert von .04 (oder 0.04) auf, was bedeutet, dass es nahezu keinen Zusammenhang zwischen dem Familienstand und dem Glauben an dem Leben nach dem Tod gibt.
  • Dies erstaunt uns nicht, da das ja auch schon beim Chi-Quadrat-Test herauskam.
  • Entsprechend liegt kein signifikantes Ergebnis vor: der p-Wert liegt bei allen drei Maßen bei .518 (wie oben bei Chi-Quadrat).
zusammenhangsmaße-nominalskala-spss

Geschafft!

Ich hoffe, es fällt dir nun etwas leichter, dich in den Ergebnistabellen zurechtzufinden!

Vielleicht hast du ja sogar Lust, dir gleich einen weiteren Datensatz zu schnappen und das Ganze anzuwenden.  

Jetzt ist aber erst mal Zeit für einen wohlverdienten Cupcake!

cupcake

  • Klaus sagt:

    Vielen Dank für den tollen Text!

  • Peter sagt:

    Klasse! Das bringt Licht ins Dunkel.

  • Sarah sagt:

    Spitze erklärt! Vielen Dank!!

  • >