Hast du dich schon mal gefragt, was es mit den ganzen verschiedenen t-Tests auf sich hat?
Gefühlt gibt es ja irgendwie endlos viele Varianten – aber wie hält man die Bitteschön auseinander? Wofür sind sie überhaupt gut und wann nimmst du welchen dieser vielen t-Tests?
Die Verwirrung rund um dieses Thema wird gleich ein Ende haben, denn du erfährst, worum es grundsätzlich bei den t-Tests geht, in welchen Bereich der Statistik sie gehören, welche Arten es gibt, wie sie sich voneinander unterscheiden und noch ein paar wissenswerte Dinge mehr. Es wird also äußerst spannend…;)
Ein kleines Caveat vorab: In diesem Artikel geht es um das grundsätzliche Verständnis und nicht um die Berechnung.
Dies zeige ich dir in weiteren Blog Posts und in meinem Videokurs zur Inferenzstatistik.
Worum geht's bei den t-Tests &
in welchen Bereich der Statistik gehören sie?
Die t-Tests gehören zu den am häufigsten verwendeten statistischen Verfahren, wenn es um Mittelwertsunterschiede bei zwei Gruppen oder Messzeitpunkten geht.
Das könnten beispielsweise Hypothesen sein wie:
Die Selbstakzeptanz ist bei Frauen niedriger als bei Männern.
Oder: Die Fokussierungsfähigkeit ist morgens höher als abends.
Die t-Tests wohnen in der Welt der schließenden oder Inferenzstatistik und hier in der Welt der Unterschiede.
Das heißt, es geht um Unterschiedshypothesen, die gerichtet, also rechts- oder linksseitig, sowie ungerichtet sein können.
Die 3 Varianten der t-Tests
t-Tests gliedern sich in 3 VARIANTEN:
- Einstichproben-t-Test
- t-Test für unabhängige Stichproben, auch ungepaarter t-Test genannt
- t-Test für abhängige Stichproben, auch gepaarter t-Test oder t-Test bei verbundenen Stichproben genannt
Da es bei allen Varianten um Mittelwerts-Unterschiede bei 2 Gruppen oder zwei Messzeitpunkten geht, bedeutet das:
die Zahl 2 ist hier zentral!
Daher hinter die feinen Löffelchen schreiben:
Wenn Mittelwertsunterschiede bei ZWEI Gruppen oder Messzeitpunkten
das Thema deiner Hypothese sind,
wählst du gewöhnlich einen der t-Tests
– natürlich nur, sofern die Voraussetzungen dafür erfüllt sind.
Hast du 3 oder mehr Gruppen bzw. Messzeitpunkte,
kannst du keine t-Tests mehr rechnen,
sondern musst in die Welt der Varianzanalyse (= ANOVA) wechseln!
Beispiele für die 3 Varianten
Einstichproben-t-Test
Wie der Name bereits erahnen lässt, geht’s hier um den Mittelwert EINER Stichprobe, der mit einem bekannten (oder vermuteten) Mittelwert verglichen wird. Es bleibt also trotz des Namens beim Vergleich zweier Mittelwerte.
Mit Vergleich ist gemeint, dass es um die Differenz der beiden Mittelwerte geht, die dann je nach Verfahren noch weiter modifiziert wird.
Letztlich geht’s um die Frage: Unterscheiden sich die Mittelwerte signifikant in der erwarteten Richtung, liegen sie also weit genug auseinander? Dies trifft auf rechts- oder linksseitige Hypothesen zu.
Und bei ungerichteten Hypothesen ist die Frage: Unterscheiden sie sich signifikant, d. h. liegen sie weit genug auseinander, egal in welcher Richtung?
Wie könnte eine Fragestellung beim Einstichproben-t-Test lauten?
Angenommen, du vermutest, dass die durchschnittliche Intelligenz der Bayern höher ist als der typische Deutschland-weite durchschnittliche IQ von 100 IQ-Punkten.
Das wäre eine rechtsseitige Unterschiedshypothese, bei der du dir beispielsweise 50 testwillige Bayern und Bayerinnen suchen und sie einem IQ-Test unterziehen würdest.
Aus den 50 IQ-Werten berechnest du dann das arithmetische Mittel und schaust, ob es signifikant höher ist als der durchschnittliche IQ von 100.
Selbstverständlich ist die Berechnung und Vorgehensweise deutlich komplexer, aber das ist das Grundprinzip.
Wie das genau bei allen 3 t-Test-Arten geht, erkläre ich dir gerne in meinem Powerkurs “Inferenzstatistik & SPSS leicht gemacht!” – der rundum sorglos Videokurs, der dich fit für die Prüfung macht!
Guckst du hier:
t-Test für unabhängige Stichproben
Hier werden die Mittelwerte zweier unabhängiger Gruppen miteinander verglichen.
Das könnte eine Hypothese sein wie:
Die Frustrationstoleranz ist bei jüngeren Menschen niedriger als bei älteren. (Linksseitige Hypothese)
Damit hast du zwei Gruppen, die voneinander unabhängig sind: Jüngere und ältere Menschen, bei denen jeweils die Frustrationstoleranz erhoben wird.
Dann werden aus den Werten jeder Gruppe wiederum die Mittelwerte berechnet und diese miteinander verglichen – wohlgemerkt muss man wie bereits erwähnt noch mehr tun, aber das nur fürs grobe Verständnis.
Unabhängige Stichproben bedeutet übrigens, dass die Menschen in den beiden Gruppen nichts miteinander zu tun haben, also in keiner Weise irgendwie miteinander "verbandelt" sind.
t-Test für abhängige Stichproben
Man ahnt es: Es könnte ebenfalls um den Vergleich zweier Mittelwerte gehen, doch nun bei abhängigen Stichproben.
Jetzt wird’s von den Anwendungsmöglichkeiten her etwas komplizierter, weil es – und das gilt ganz generell für statistische Verfahren – drei verschiedene Arten von abhängigen Stichproben gibt, nämlich die folgenden:
- Mehrmalige Messungen bei denselben Personen zu verschiedenen Messzeitpunkten
- Messungen bei in irgendeiner Weise miteinander verbundenen Personen wie z. B. Ehepaare, Lebensgefährtinnen, Geschwister, Team-Kolleginnen, etc. sowie:
- Mehrmalige Messungen bei denselben Personen unter verschiedenen Bedingungen bzw. „Treatments“
Schauen wir uns zuerst den 1. Fall: “Mehrmalige Messungen bei denselben Personen zu verschiedenen Messzeitpunkten” an.
Die Hypothese lautet: Die soziale Kompetenz Jugendlicher ist nach einem Kompetenz-Training höher als zuvor.
Das wäre eine rechtsseitige Hypothese.
Hier wird die soziale Kompetenz bei Jugendlichen vor und nach Absolvieren eines Trainings zur Steigerung der sozialen Kompetenz erhoben und die beiden Mittelwerte miteinander verglichen.
2. Fall: Messungen bei miteinander verbundenen Personen
Die Hypothese ist: Zwillinge unterscheiden sich in ihrer Extraversion, eine ungerichtete Hypothese
3. Fall: Mehrmalige Messungen bei denselben Personen unter verschiedenen Bedingungen bzw. Treatments
Unsere Hypothese lautet: Die Lebenszufriedenheit ist nach dem Verzehr von Sachertorte geringer als nach dem Verzehr von Schwarzwälder Kirschtorte, eine linksseitige Hypothese.
Jede Person bekommt zwei Torten vorgesetzt und nach dem Verzehr jeder Torte wird die Lebenszufriedenheit gemessen.
Hier geht es also nicht um den Vergleich von Messzeitpunkten, sondern um die Reaktionen auf verschiedene Treatments.
Natürlich werden die Torten streng genommen auch nicht gleichzeitig konsumiert, aber das Interessierende sind nicht die Werte zu unterschiedlichen Zeitpunkten, sondern die Ergebnisse oder Reaktionen nach dem Verzehr verschiedener Dinge.
Weitere t-Tests
Gut zu wissen:
Damit’s nicht allzu langweilig wird, gibt’s darüber hinaus auch noch andere t-Tests, die zur Signifikanz-Prüfung von beispielsweise Korrelationen wie dem Korrelationskoeffizienten r nach Bravais-Pearson oder den Regressionskoeffizienten b eingesetzt werden.
Bei diesen geht es aber inhaltlich nicht um Mittelwerts-Unterschiede!
Zurück zu den 3 klassischen t-Tests:
Welche Arten von Variablen du brauchst
Bei allen t-Tests ist die Gruppen-Variable (= wer unterscheidet sich von wem?) kategorial, d. h. nominal- oder ordinalskaliert.
Du kannst auch höher skalierte Variablen verwenden, musst sie dann jedoch „downgraden“, d. h. in Kategorien verpacken:
Das Einkommen (Verhältnisskala) könnte beispielsweise in hoch / niedrig umgewandelt werden.
Die Gruppen-Variable bzw. die Messzeitpunkte sind die UV.
Die AV (= das, was gemessen wird) ist metrisch und normalverteilt, mit unbekannter Standardabweichung in der Grundgesamtheit.
Da es immer nur um den Vergleich von zwei Gruppen geht, kannst du dennoch Gruppen-Variablen mit mehr als 2 Ausprägungen verwenden, sofern du daraus nur die zwei interessierenden Ausprägungen in deine Hypothese aufnimmst.
Ein Beispiel hierzu:
Angenommen, du erhebst als AV das Glücksgefühl nach dem Urlaub und als UV die Urlaubsart in den 4 Ausprägungen:
- Busreise nach Kärnten mit dem Kegelclub
- Käfigtauchen mit weißen Haien in Australien
- Lachyoga-Retreat auf Bali
- Faultier-Spotting in Costa Rica
Wenn dich aber ausschließlich der Unterschied im Glücksgefühl nach dem Urlaub zwischen den Busreisenden mit dem Kegelclub und den Lach-Yogis interessiert, verwendest du für die Berechnung nur die Daten der Busreisenden und der Yogis.
Deine Hypothese würde dann lauten: Busreisende und Lach-Yogis unterscheiden sich in ihrem Glücksgefühl nach dem Urlaub.
D. h., du verwendest für den t-Test also nur diese zwei Ausprägungen deiner vierfach gestuften UV Urlaubsart und ignorierst die Daten der anderen Urlaubsgruppen.
Das Gleiche gilt für mehrere Messzeitpunkte wie z. B. morgens, mittags, abends und nachts, von denen dich nur zwei interessieren:
Dann verwendest du für deine Hypothese beispielsweise nur die Messungen morgens und abends und vergleichst diese miteinander.
Die dazugehörige Testverteilung
Eine Testverteilung ist eine theoretische Verteilung von Werten, in die das Ergebnis deiner Berechnungen hineinfällt.
Die zu den t-Tests dazugehörige Testverteilung ist die t-Verteilung.
Wenn wir uns bei unserem t-Test den Wolf gerechnet haben, erhalten wir am Ende einen schicken t-Wert, der in die dazugehörige t-Verteilung hineinfällt.
Und dann gilt wie immer beim Hypothesentesten:
Fällt er in das äußerste, durch das Signifikanzniveau alpha definierte Eckchen der Verteilung?
Wenn ja, besteht ein signifikanter Unterschied, und wenn nicht, dann nicht ;).
Dazu noch etwas Wesentliches für hinter die Löffelchen:
Wichtig ist immer, bei der Ergebnis-Interpretation von rechts- oder linksseitigen Hypothesen darauf zu achten, ob die Ergebnisse auch wirklich in die erwartete Richtung gehen!
Denn es könnte ja sein, dass der resultierende t-Wert vermeintlich signifikant ist, weil er in das äußerste Eckchen der t-Verteilung hineinfällt.
Wenn er aber in die Gegenrichtung der Hypothese, also in die andere Seite hineinfällt, haben wir tatsächlich gar kein signifikantes Ergebnis!
Daher bitte bei gerichteten Hypothesen immer darauf achten,
ob das Ergebnis auch wirklich in die erwartete Richtung geht!
Last, but not least:
Die dazugehörige Effektstärke
Du weißt vermutlich, dass man bei einem signifikanten Ergebnis stets eine passende Effektstärke berechnen sollte, um herauszufinden, ob der gefundene Unterschied auch praktisch bedeutsam ist.
Zum Leidwesen der Studierenden existieren verschiedene Effektstärken für die t-Tests, wobei Cohens d die gängigste ist, die bei allen 3 t-Tests zum Einsatz kommen kann.
Cohens d sagt aus, wie groß der Unterschied zwischen den beiden Mittelwerten ist. Und wenn dich der unstillbare statistische Wissensdurst plagt, kannst du dir dazu meinen Blog Post zu Cohens d durchlesen – da findest du Genaueres hierzu.
Darüber hinaus lassen sich je nach Art des t-Tests auch Hedges g, Glass Delta oder der Korrelationskoeffizient r nach Bravais-Pearson berechnen.
Zum Abschluss noch ein kleiner Steckbrief:
Steckbrief t-Tests
UND DAS WAR’S – GESCHAFFT! NA BITTE, GEHT DOCH!
Das war deine Einführung in die bunte und vor allem aufregende Welt der t-Tests.
Jetzt wünsche ich dir noch einen knackenden Tag und natürlich weiterhin:
HAPPY LEARNING!
QUELLEN (Als Amazon-Partnerin verdiene ich an qualifizierten Verkäufen):
Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. Pearson.
Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.
Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.