Category Archives for Schließende Statistik leicht gemacht!

Standardfehler des Mittels einfach erklärt!

studentin-standardfehler

In der Statistik hat man's ja zur allgemeinen Verwirrung ganz gern mit dem Wort "Standard" in allen erdenklichen Variationen: Standardabweichung, Standardnormalverteilung, Standardisierung, Standardschätzfehler – und last, but not least: Standardfehler! Letzteren werde ich dir hier nahebringen. Kurz & knackig: der Standardfehler des Mittels ist die Standardabweichung in einer THEORETISCHEN Verteilung von unendlich vielen Mittelwerten

icon-logo-statistik

Was ist der Standardfehler?

Stell' dir vor, du machst eine Studie zur Resilienz bei Erwachsenen in Deutschland. Dazu fängst du 150 Erwachsene über 18 Jahren ein und zwingst sie zu einem Resilienztest.

Nun hast du 150 Resilienz-Werte, erhoben auf einer Skala von 0 (= gar nicht vorhanden) bis 100 (= der Fels / die Felsin in der Brandung). Aus diesen berechnest du (oder vermutlich eher SPSS) den Mittelwert.

Jetzt pinselst du liebevoll eine Skala und trägst den gefundenen Mittelwert auf der x-Achse ein.

Weil du so inspiriert und im Flow warst, machst du das Ganze gleich nochmal, an derselben Grundgesamtheit zur selben Fragestellung mit demselben Messinstrument für Resilienz.

Und nochmal. Und nochmal. Und nochmal. Das sieht dann irgendwann so aus:

verteilung-mittelwerte

Vermutlich würdest du dir spätestens beim dritten Mal den Unmut der Befragten einhandeln, aber das hält dich nicht auf.

Du machst weiter... ad infinitum und pinselst immer wieder die gefundenen Mittelwerte auf der x-Achse auf.

Dort, wo besonders viele Mittelwerte hinfallen, bildet sich ein "Huckel" und irgendwann entsteht aus all diesen Mittelwerten eine wunderschöne und sehr ansehnliche Normalverteilungskurve.

Wie du vermutlich schon gelernt hast, hat diese Normalverteilung ebenfalls wieder einen Mittelwert, also der Wert, der genau in der Mitte der Kurve, am höchsten Punkt, liegt.

Dieser Mittelwert aller Mittelwerte ist der Erwartungswert "mü", also der tatsächlich in der Population geltende Mittelwert, hier in grün eingezeichnet:

erwartungswert
icon-logo-statistik

Und zu beiden Seiten um diesen Mittelwert herum gibt es auch eine Standardabweichung: das ist der Standardfehler. Der Standardfehler ist daher die Standardabweichung in einer theoretischen Verteilung von Mittelwerten.

Denn wie du dir denken kannst, macht das natürlich kein 🐷! Das ist also eine rein theoretische Vorstellung. In der Praxis nimmt man nur eine repräsentative und zufällig ausgewählte Stichprobe und berechnet daraus den Standardfehler.

Und was sagt uns der Standardfehler bzw. wofür brauchen wir ihn?

Der Standardfehler des Mittels ist ein Maß dafür, wie gut der Mittelwert einer Stichprobe den Populationsmittelwert mü schätzt.

Je kleiner, desto besser trifft unser x quer den tatsächlich in der Grundgesamtheit geltenden Erwartungswert mü.

Hier siehst du den Standardfehler zu beiden Seiten des Mittelwerts / Erwartungswerts in gelb eingezeichnet:

grafik-standardtfehler
icon-logo-statistik

In welchen Bereich der Statistik gehört er?

Der Standardfehler gehört in die Welt der Inferenzstatistik und dort in den Bereich des theoretischen Grundwissens.

Dieses Wissen legt den Grundstein für das Verständnis der verschiedenen Verteilungen und darauf aufbauenden Methoden. Er ist nur bei metrischen Variablen anwendbar, d. h. ab Intervallskala.

icon-logo-statistik

Wie wird der Standardfehler berechnet?

Dies ist die Formel:

formel-standardfehler

An der Formel kannst du sehen, dass der Standardfehler als Sigma (= Standardabweichung in der Population / Grundgesamtheit) mit einem tiefergestellten x quer definiert ist: als Standardabweichung in einer Verteilung von ganz vielen bunten Mittelwerten.

2 Schritte führen zum Standardfehler-Glück:

1. Standardabweichung aus deinen Stichproben-Daten berechnen

2. Durch Wurzel aus n teilen

Kommen wir zu unserem Resilienz-Beispiel zurück. Da ich dich hier nicht mit 150 Werten belasten will, beschränken wir uns auf eine Stichprobe von sagenhaften 8 Personen.

Resilienz-Werte:  56   80   66   74   59   65   48   70

Standardabweichung: 10.26 (wenn man durch n – 1 teilt!)

Mittelwert: 64.75

berechnung-standardfehler

Beispiel größerer Datensatz:

Angenommen, wir würden die Untersuchung tatsächlich mit 150 Personen machen und würden auch dort eine Standardabweichung von 10.26 herausbekommen.

Dann sähe der Standardfehler des Mittels folgendermaßen aus:

standartfehler-berechnung

Du siehst also, dass er deutlich kleiner geworden ist. Daher gilt:

Je größer die Stichprobe, desto kleiner der Standardfehler und desto genauer die Schätzung des Populationsmittelwerts!

icon-logo-statistik

Wie wird der Standardfehler interpretiert?

Hier gibt es leider keine klaren Regeln oder Konventionen.

Wichtig ist wie bei den meisten anderen statistischen Interpretationen auch, dass du die verwendete Skala im Hinterkopf behältst. Denn je nachdem wie groß die Skala ist, wirst du zu einer unterschiedlichen Interpretation kommen.

Wir hatten hier bei unserem Resilienz-Beispiel eine recht große Skala von 0 – 100. Ein Standardfehler von 3.63 und erst recht von 0.84 kann hier als mittelgute (3.63) bis sehr gute (0.84) Schätzung des Populationsmittelwert verstanden werden.

Hätten wir die Resilienz hingegen auf einer Skala von 1 – 10 gemessen, wäre ein Standardfehler von 3.63 im unterirdischen Bereich. Wir könnten also nicht wirklich davon ausgehen, dass der Mittelwert unserer Stichprobe ein guter Schätzer für den Populationsmittelwert ist.

icon-logo-statistik
Wie sag' ich's Tante Erna?

Stell' dir vor, du bist bei deiner Tante Erna zu Schwarzwälder Kirschtorte und ordentlich Kaffee eingeladen. Tante Erna ist nicht die allerfirmste in Statistik, aber stets super interessiert an allem, was du so erhebst.

Also musst du ihr deine Ergebnisse in lai*innen-verständlicher Form nahebringen.

Das sähe hier so aus:

"Die Versuchspersonen waren insgesamt überdurchschnittlich psychisch widerstandsfähig." = Mittelwert von 64.75 auf einer Skala von 0 – 100

"Man kann davon ausgehen, dass das Ergebnis ziemlich gut das Gros aller Erwachsenen in Deutschland widerspiegelt." = Standardfehler von 0.84

icon-logo-statistik

​Standardfehler - ​das Video

Zum Abschluss noch ein Steckbrief:

icon-logo-statistik

Steckbrief Standardfehler des Mitels

  • = Standardabweichung einer theoretischen Verteilung von unendlich vielen Mittelwerten
  • Maß dafür, wie gut der Mittelwert einer Stichprobe den Populationsmittelwert mü schätzt
  • Nur bei metrischen Variablen anwendbar
  • Je größer die Stichprobe, desto kleiner der Standardfehler und desto genauer die Schätzung des Populationsmittelwerts 
  • Bei der Interpretation immer die verwendete Skala und die Größe des Mittelwerts im Auge behalten!
icon-logo-statistik

​Meine Challenge an ​dich 🥳

Schnapp' dir doch gleich mal einen Datensatz, den du entweder bereits hast oder erfinde einen.

Und dann rechne bitte den Standardfehler aus und versuch' dich an einer Interpretation für Tante Erna.

Viel Spaß!

Quellen:

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

icon-logo-statistik
Probleme beim lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

Wahrscheinlichkeitsfunktion einfach erklärt!

zaehldichte-wahrscheinlichkeitsfunktion

Wenn du eine Untersuchung mit diskreten Variablen machst, also Variablen, die nominal- oder ordinalskaliert sind, und du gerne auf einen Blick sehen möchtest, wie wahrscheinlich welche Ausprägungen sind, brauchst du dafür die Wahrscheinlichkeitsfunktion.

icon-logo-statistik

Was ist eine Wahrscheinlichkeitsfunktion?

Grundsätzlich stellt eine "Funktion" eine Beziehung zwischen zwei Mengen dar. Sie ordnet den Ausprägungen der einen Menge jeweils eine bestimmte Ausprägung der anderen Menge zu, zum Beispiel jedem Wert auf der x-Achse einen bestimmten Wert auf der y-Achse.

Eine Wahrscheinlichkeitsfunktion (oder auch Zähldichte) ordnet jeder möglichen Ausprägung einer diskreten Variablen (x-Achse) in einer hübschen Grafik eine bestimmte Wahrscheinlichkeit auf der y-Achse zu.

Sie ist also eine visuelle Darstellung der Auftretenswahrscheinlichkeiten von bestimmten Ausprägungen einer Variablen. Diese Auftretenswahrscheinlichkeiten entsprechen konzeptuell den relativen Häufigkeiten.

Dabei ist der Unterschied zur Dichtefunktion, dass es sich hier um diskrete Variablen oder Merkmale handelt. Hier gibt es zwischen zwei Ausprägungen nichts, da ist quasi ein "Loch" – im Gegensatz zu den stetigen Variablen, wo zwischen zwei Ausprägungen unendlich viele Werte liegen können.

Studienfächer sind beispielsweise diskrete Variablen: da gibt es nichts zwischen Ägyptologie und Alt-Islamistik oder BWL. Daher erfolgt die Darstellung auch nicht in einer Fläche wie bei der Dichtefunktion, sondern mit Säulen, Stäbchen oder Balken für die Wahrscheinlichkeiten der EINZELNEN Ausprägungen.

Wenn du jedoch z. B. bei einem Würfelexperiment berechnen möchtest, wie wahrscheinlich das Werfen von höchstens dreimal 6 oder mindestens zweimal die 1 ist, dann brauchst du die Verteilungsfunktion, die quasi einer "Aufeinanderstapelung" der Einzelwahrscheinlichkeiten entspricht.

icon-logo-statistik

In welchen Bereich der Statistik gehört sie?

Die Wahrscheinlichkeitsfunktion gehört in die Welt der Inferenzstatistik und dort in den Bereich des theoretischen Grundwissens.

Dieses Wissen brauchst du, um zu verstehen, wie die verschiedenen Verteilungen zustandekommen, was man mit ihnen machen kann und wie man Wahrscheinlichkeiten berechnet. Diskrete Verteilungen sind z. B. die Binomial- oder Hypergeometrische Verteilung (wir erinnern uns mit Freuden an die schönen Glücksrad- oder Lotto-Aufgaben....;).

icon-logo-statistik

Wie entsteht die Wahrscheinlichkeitsfunktion?

Angenommen, du untersuchst 120 zufällig ausgewählte Personen und erhebst deren Geschlecht in den Ausprägungen Frau, Mann und Divers. 56 Personen geben ihr Geschlecht als weiblich an, 60 als männlich und 4 als divers.

Nun berechnest du die relativen Häufigkeiten, indem du die jeweilige Ausprägungsanzahl durch die Gesamt-Stichprobengröße N teilst:

Frau: 56 : 120 = 0.47

Mann: 60 : 120 = 0.5

Divers: 4 : 120 = 0.03

Diese relativen Häufigkeiten entsprechen jetzt den Wahrscheinlichkeiten: die Wahrscheinlichkeit, beispielsweise eine Frau zu ziehen, liegt bei 0.47 oder bei 47%.

Dies wird nun folgendermaßen aufgepinselt:

Auf der x-Achse trägst du die vorkommenden Ausprägungen ein: Frau, Mann und Divers.

Dann markierst du liebevoll die y-Achse mit Wahrscheinlichkeiten (immer zwischen 0 und 1) und ziehst die zu den jeweiligen Ausprägungen dazugehörigen Balken bis zum vorher von dir errechneten Punkt. Hier: 0.47 für die Frauen, 0.5 für die Männer und 0.03 für Divers. Das sieht dann folgendermaßen aus (liebevoll von mir gemalt):

wahrscheinlichkeitsfunktion

Und das war's auch schon!

Übrigens: f(x), was du oben an der y-Achse siehst, bedeutet "Funktion von x", also in diesem Falle die Zuordnung der Einzelwahrscheinlichkeiten zu den jeweiligen Geschlechts-Ausprägungen.

Zum Abschluss noch ein superkurzer Steckbrief:

icon-logo-statistik

Steckbrief Wahrscheinlichkeitsfunktion

  • Wird auch Zähldichte genannt
  • Nur für diskrete Variablen möglich!
  • Visuelle Darstellung von Auftretenswahrscheinlichkeiten einzelner Merkmalsausprägungen
  • Die Auftretenswahrscheinlichkeiten entsprechen konzeptuell den relativen Häufigkeiten
  • Gehört zum Basiswissen für die schließende oder Inferenzstatistik

Quellen:

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

icon-logo-statistik
Probleme beim lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

Dichtefunktion einfach erklärt!

dichtefunktion

In der Psychologie und den meisten Sozialwissenschaften können wir immer nur Stichproben aus der interessierenden Grundgesamtheit ziehen und so gut wie nie alle in Betracht kommenden Personen befragen/testen/beobachten. Daher müssen wir uns mit den Ergebnissen aus einer Stichprobe begnügen und von diesen auf die dazugehörige Grundgesamtheit schließen. 

Um das tun zu können, gibt es verschiedene Vorstellungen davon, wie Variablen wie z. B. Neugier, Offenheit für neue Erfahrungen oder Resilienz verteilt sein könnten, d. h. in welchem Bereich sich wohl die meisten Werte tummeln und wie wahrscheinlich es ist, dass eine Person aus der betreffenden Grundgesamtheit einen Wert hat, der in ein bestimmtes Intervall fällt.

Und genau dafür gibt es die Dichtefunktion: sie ist eine visuelle Darstellung der Auftretenswahrscheinlichkeiten von bestimmten Ausprägungen einer Variablen.

icon-logo-statistik

Was ist eine Dichtefunktion?

Zunächst ein Beispiel: Angenommen, dich interessiert die Kompromissfähigkeit bei gewaltbereiten Jugendlichen auf einer Skala von 0 (= gar nicht vorhanden) bis 100 (= super stark ausgeprägt). Damit hättest du eine stetige, metrische Variable (auf Intervallskalenniveau).

"Stetig" bedeutet, dass zwischen zwei Merkmalsausprägungen THEORETISCH unendlich viele Werte liegen können, wenn man nur genau genug messen würde. Merk' dir vielleicht einfach, dass du bei stetigen Variablen potenziell immer ein Komma und unendlich viele Nachkomma-Stellen anhängen könntest. Also bei der Kompromissfähigkeit so was wie: 48,897120823546043745654...

Nun möchtest du womöglich wissen, wo sich die meisten Werte herumtreiben und wie wahrscheinlich es ist, dass ein Jugendlicher z. B. eine Kompromissfähigkeit zwischen 35 und 40 aufweist. Ersteres kannst du in der Dichtefunktion SEHEN, Letzteres mit der Verteilungsfunktion BERECHNEN.

Eine Dichtefunktion oder Wahrscheinlichkeitsdichte ist eine schicke visuelle Darstellung der Verteilung von stetigen Variablen. Sie zeigt dir, wie und wo sich die einzelnen Merkmalsausprägungen auf einer Skala verteilen und in welchem Bereich die meisten Werte auftreten.

Dort, wo sich die meisten Werte ballen, besteht auch die höchste Wahrscheinlichkeit dafür, dass eine zur interessierenden Grundgesamtheit gehörige (z. B. gewaltbereite Jugendliche), zufällig ausgewählte Person hier ihre Ausprägung hat. Bei der Normalverteilung ist das um den Mittelwert herum. 

Hier siehst du die Dichtefunktion einer Normalverteilung zum Kompromissfähigkeits-Beispiel mit einem Mittelwert von 35 und einer Standardabweichung von 8. Der Bereich +/– eine Standardabweichung ist blau markiert – dort finden sich die meisten Werte. Daher ist auch die Wahrscheinlichkeit am höchsten, dass ein zufällig ausgewählter gewaltbereiter Jugendlicher hier seinen Wert hat, nämlich zwischen 27 und 43.

dichtefunktion-normalverteilung
icon-logo-statistik

In welchen Bereich der Statistik gehört sie?

Die Dichtefunktion gehört in die Welt der Inferenzstatistik und dort in den Bereich des theoretischen Grundwissens.

Dieses Wissen brauchst du, um zu verstehen, wie die verschiedenen Verteilungen zustande kommen (z. B. t oder F), was man mit ihnen machen kann und wie man Wahrscheinlichkeiten berechnet.

icon-logo-statistik

Wie entsteht die Dichtefunktion?

Stell' dir vor, man würde zur Kompromissfähigkeit von gewaltbereiten Jugendlichen unendlich viele Untersuchungen machen und immer wieder Stichproben aus derselben Population ziehen. 

Wenn man dann bei jeder dieser Untersuchungen z. B. den Mittelwert berechnen und diesen auf der oben genannten Skala zwischen 0 und 100 mit einem Strich aufzeichnen würde, bekäme man (sehr vereinfacht gesagt) mit der Zeit aus ganz, ganz vielen Strichen eine Fläche. Dort, wo die Werte besonders oft hinfallen, wo also Ballungen entstehen, häufen sich die Striche, werden länger und es entsteht eine Art Hügel oder Kurve.

Diese Kurve bzw. Dichtefunktion zeigt nun, an welcher Stelle sich die meisten Werte ansammeln und wie wahrscheinlich Merkmalsausprägungen in bestimmten Bereichen sind. Wo die Kurve am höchsten ist, ist auch die Wahrscheinlichkeit am höchsten, dass jemand dort seine Merkmalsausprägung hat.

Die Dichtefunktion muss jedoch nicht immer wie Schlange-frisst-Elefant aussehen.

Hier siehst du ein Beispiel der Dichtefunktion einer F-Verteilung – das ist die Verteilung, die du z. B. für die Varianzanalyse und Regression brauchst:

dichtefunktion-f-verteilung
icon-logo-statistik

Eigenschaften der Dichtefunktion

  • Die Dichtefunktion ist eine sog. Wahrscheinlichkeitsdichte und kann genauso wie Wahrscheinlichkeiten nur positive Werte annehmen. Diese liegen immer zwischen 0 und 1 (das erste Axiom der Wahrscheinlichkeit). 
  • Das bedeutet, dass die Gesamtfläche unter der Kurve immer den Wert p = 1 oder 100% hat (p steht für Wahrscheinlichkeit).
  • Anders ausgedrückt: die Wahrscheinlichkeit dafür, in einer Stichprobe einen Wert zu erheben, der IRGENDWO in dem Bereich unterhalb der Kurve liegt, ist 100% oder 1.
  • Die Wahrscheinlichkeit dafür, dass ein Wert in einen bestimmten Bereich unterhalb der Kurve fällt, also in ein bestimmtes Intervall, liegt irgendwo zwischen 0 und 1. Dies lässt sich dann mit der Verteilungsfunktion mithilfe wilder Integral-Rechnungen ermitteln.
  • Die Wahrscheinlichkeit für einen ganz bestimmten (!) Wert ist gleich 0. Das liegt daran, dass es ja bei metrischen Variablen POTENZIELL unendlich viele Ausprägungsmöglichkeiten gibt. Und da sich Wahrscheinlichkeiten immer zu 1 aufsummieren, funktioniert das bei unendlich vielen Werten nicht. Denn die Wahrscheinlichkeiten für diese unendlich vielen Merkmalsausprägungen müssten sich ja auch zu 1 aufsummieren lassen, was jedoch nicht geht.

Zum Abschluss noch ein kleiner Steckbrief:

icon-logo-statistik

Steckbrief Dichtefunktion

  • Wird auch Wahrscheinlichkeitsdichte genannt
  • Nur für stetige Variablen möglich! Für diskrete Variablen gibt es die Wahrscheinlichkeitsfunktion
  • Visuelle Darstellung von Auftretenswahrscheinlichkeiten
  • Zeigt, an welcher Stelle sich die meisten Werte ansammeln und wie wahrscheinlich Merkmalsausprägungen in bestimmten Bereichen sind
  • Gehört zum Basiswissen für die schließende oder Inferenzstatistik
  • Kann immer nur positive Werte zwischen 0 und 1 annehmen
  • Die Wahrscheinlichkeiten für Werte in einem bestimmten Intervall werden mit der Integralrechnung ermittelt
  • Die Wahrscheinlichkeit für einen ganz bestimmten Wert = 0

Quellen:

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

icon-logo-statistik
Probleme beim lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

Chi-Quadrat-Test auf Unabhängigkeit leicht gemacht!

frau-chi-quadrat

Vermutlich wolltest du immer schon mal wissen, ob es einen Zusammenhang zwischen dem Geschlecht und der Wahl der Dating-App gibt. Nein? Vielleicht etwas Ähnliches? Wenn ja, hat das Warten nun ein Ende, denn wenn du tapfer weiterliest, werde ich dich in die Geheimnisse des Chi-Quadrat-Tests auf Unabhängigkeit einweihen – derjenigen Methode, mit der du herausfinden kannst, ob zwischen zwei nominalskalierten Merkmalen ein Zusammenhang besteht. 

icon-logo-statistik

Was ist der Chi-Quadrat-Test auf Unabhängigkeit?

Chi-Quadrat klingt ja irgendwie ein wenig fernöstlich (= potenzierte Lebensenergie?), hat damit allerdings eher wenig zu tun. Dafür umso mehr mit einem statistischen Verfahren, bei dem überprüft wird, ob zwei nominalskalierte, kategoriale Variablen wie z. B. Geschlecht, Nationalität, Studienfach, Wahl der Automarke, gewählte Partei etc. zusammenhängen.

Der Begriff "Unabhängigkeit" bedeutet, dass kein Zusammenhang zwischen den Variablen besteht!

Das ist auch die Nullhypothese, die dieser Test überprüft, beispielsweise: "Es besteht kein Zusammenhang zwischen einer bestimmten Persönlichkeitsstörung und dem gewählten Studienfach".

Anders formuliert: Die Wahl des Studienfaches ist unabhängig von einer eventuell vorhandenen Persönlichkeitsstörung. Oder so: Die vorliegende Persönlichkeitsstörung hat keinen Einfluss auf die Wahl des Studienfaches (und umgekehrt).

Möglich ist auch, den Test mit Variablen durchzuführen, die auf einer höheren Skala liegen. In diesem Fall müsste man die Variablen dann quasi "downgraden" und in Kategorien verpacken (was jedoch immer mit Informationsverlust verbunden ist).

In welchen Bereich der Statistik gehört er?

Der Chi-Quadrat-Test gehört in die Welt der Inferenzstatistik, dient also dazu, von den Daten einer Stichprobe auf die dazugehörige Grundgesamtheit zu schließen. 

Zudem gehört er in den Bereich der Zusammenhangshypothesen.

Was sagt der Chi-Quadrat-Test aus?

Der Chi-Quadrat-Test sagt aus, ob ein Zusammenhang zwischen zwei nominalskalierten Variablen besteht und wenn ja, wie stark dieser ist. Die Berechnung der dazugehörigen Effektgröße wird hier jedoch nicht dargestellt.

Als grobe Daumenregel gilt zunächst einmal: kleiner Wert = geringer Zusammenhang; großer Wert = starker Zusammenhang.

Hier gibt es leider keine Normierung, daher kann der Chi-Quadrat-Wert, der bei deiner Berechnung herauskommt, potenziell beliebig groß werden – er ist jedoch immer positiv. Das macht die Interpretation ein wenig schwierig...

Man kann jedoch einen Maximalwert berechnen und erhält dadurch einen gewissen Anhaltspunkt. Das zeige ich dir nachher bei der Berechnung.

icon-logo-statistik

Chi-Quadrat-Test berechnen

Kommen wir für die Berechnung zum Eingangsbeispiel zurück:

Gibt es einen Zusammenhang zwischen dem Geschlecht und der Wahl einer Dating-App?

Um das Beispiel möglichst einfach zu halten, definieren wir die Ausprägungen von Geschlecht ganz old school als weiblich und männlich. Die Dating-Apps oder Single-Börsen sind Parship und Tinder (selbstverständlich ist der Chi-Quadrat-Unabhägigkeitstest auch mit mehr als nur zwei Ausprägungen pro Merkmal anwendbar!).

Dazu wurden jeweils 20 Frauen und Männer befragt.

Hier ist dazu die sogenannte Kreuz- oder Kontingenztabelle:

chi-quadrat-test-kreuztabelle

Grundprinzip der Berechnung

Um die Frage nach dem Zusammenhang zu überprüfen, wird berechnet, wie häufig eine bestimmte Merkmalskombination (also z. B. Frau und Parship) vorliegen müsste, wenn kein Zusammenhang bestünde – das ist die erwartete Häufigkeit.

Diese erwartete Häufigkeit wird dann mit den tatsächlich vorhandenen Häufigkeiten in der Kreuztabelle verglichen.

GIBT ES (SIGNIFIKANTE) ABWEICHUNGEN ZWISCHEN DEN THEORETISCH ERWARTETEN UND DEN TATSÄCHLICH BEOBACHTETEN HÄUFIGKEITEN, LIEGT EIN ZUSAMMENHANG VOR!

Dies ist die Formel für die Berechnung des Chi-Quadrat-Koeffizienten (das x-Quadrat ist die mathematische Notation für Chi-Quadrat!):

formel-chiquadrat

Die beobachtete Häufigkeit ist das, was du in der Kreuztabelle siehst.

Wie bekommst du nun die erwartete Häufigkeit?

Dazu multiplizierst du für jede Zelle jeweils die zu dieser Merkmalskombination dazugehörige Zeilensumme mit der dazugehörigen Spaltensumme und teilst das Ergebnis dann durch das Gesamt-N:

chi-quadrat-test-kontingenztabelle

Um herauszufinden, wieviele Frauen Parship nutzen würden, wenn es keinen Zusammenhang zwischen dem Geschlecht und der Wahl der Dating-App gäbe, rechnest du:

Weiblich / Parship: (Zeilensumme 17 x Spaltensumme 20) : 40 = 8,5

Hier sehen wir bereits, dass mehr Frauen als erwartet Parship wählen, nämlich 14.

Prüfen wir jetzt noch die anderen Zellen:

Weiblich / Tinder: (23 x 20) : 40 = 11.5   –  beobachtet wurden jedoch 6, also weniger

Männlich / Parship: (17 x 20) : 40 = 8.5   –  beobachtet wurden jedoch 3, also deutlich weniger!

Männlich / Tinder: (23 x 20) : 40 = 11.5   –  beobachtet wurden jedoch 17, also deutlich mehr!

Nächster Schritt:

Alles in die Formel einsetzen und sich den Wolf rechnen – das Ergebnis ist dann der Chi-Quadrat-Koeffizient:

chi-quadrat-formel

Und was sagt uns das jetzt?

Noch nicht so viel... Immerhin können wir ausrechnen, wie groß der Chi-Quadrat-Wert /-Koeffizent in unserem Beispiel maximal werden könnte:

Wertebereich Chi-Quadrat-Koeffizient

wertebereich-chi-quadrat

Hier kannst du sehen, dass der Chi-Quadrat-Wert nicht negativ wird.

Der maximal mögliche Wert wird berechnet, indem du die Stichprobengröße mit (- 1) multiplizierst. Dabei ist M der kleinere Wert der Anzahl von Zeilen und Spalten. Dazu ein Beispiel:

Angenommen, wir hätten bei Geschlecht noch "divers" hinzugenommen, dann hätten wir drei Spalten für das Geschlecht und zwei für die Dating-Apps gehabt. In diesem Fall wäre dann der kleinere Wert der Anzahl von Zeilen und Spalten die zwei, da es zwei Dating-Apps und drei Geschlechts-Ausprägungen geben würde.

Da wir in unserem Beispiel jeweils zwei Ausprägungen haben, ist es also einfach die zwei.

Somit wäre der maximal mögliche Wert hier: 

40 x (2 - 1) = 40  (da sind wir mit unserem gefundenen Wert von 12.377 noch etwas davon entfernt).

Um das Ganze jetzt statistisch auf Signifikanz zu überprüfen, brauchen wir SPSS (oder eine Chi-Quadrat-Tabelle):

icon-logo-statistik

Chi-Quadrat-Test mit SPSS

Zur Erinnerung – die getestete Nullhypothese lautet: Es liegt KEIN Zusammenhang zwischen den Variablen vor! 

Wenn du nun ein signifikantes Ergebnis erhältst (einen p-Wert kleiner 0,05), wird die Nullhypothese verworfen und die Alternativhypothese angenommen, die da lautet:

Es liegt ein signifikanter Zusammenhang zwischen den beiden Variablen vor.

Zur Vorgehensweise:

Ruf' zunächst deinen Datensatz auf (oder gib' selbst Daten ein).

Dann gehst du auf "Analysieren", "Deskriptive Statistiken", "Kreuztabellen". Im sich öffnenden Fenster klickst du die beiden nominalskalierten Variablen an, die dich interessieren, und ordnest sie den Zeilen oder Spalten zu. Es macht für das Ergebnis übrigens keinerlei Unterschied, welches Merkmal du den Zeilen oder Spalten zuordnest. 

Jetzt klickst du auf das Kästchen "Statistiken" auf der rechten Seite und setzt bei "Chi-Quadrat" einen Haken, drückst auf "weiter" und dann auf "OK". Es erscheint der nachfolgende Output.

Ein weiteres Beispiel dazu findest du hier.

chi-quadrat-test-spss
  • Nicht verwirren lassen – wie bei SPSS üblich, wird deutlich mehr ausgegeben als du brauchst...
  • Schau' in der ersten Zeile bei "Chi-Quadrat nach Pearson" und "Asymptotische Signifikanz" nach
  • Dort liest du den p-Wert ab und schaust, ob er unter ,05 liegt, was hier eindeutig der Fall ist
  • Daher besteht ein signifikanter Zusammenhang zwischen dem Geschlecht und der Wahl der Dating-App! 
  • Zudem bitte immer die Fußnoten beachten: Wenn es Felder in der Kreuztabelle gibt, in denen erwartete Häufigkeiten unter 5 vorkommen, kann der Chi-Quadrat-Test zu einem ungenauen oder falschen p-Wert führen.
  • In welche Richtung der gefundene Zusammenhang geht, kannst du an der Kreuztabelle ablesen

Fazit für unsere Untersuchung:

Je mehr Mann, desto mehr Tinder – und je mehr Frau, desto mehr Parship... (caveat: Das ist eine sehr flapsige und keineswegs statistisch korrekte Interpretation!).

Oder so: Es gibt einen signifikanten Zusammenhang zwischen dem Geschlecht und der Wahl der Dating-App: Männer neigen eher zu Tinder, wohingegen Frauen Parship präferieren.

Zu guter Letzt noch ein kleiner Steckbrief:

icon-logo-statistik

Steckbrief Chi-Quadrat-Test

  • Prüft, ob zwischen zwei nominalskalierten Merkmalen ein Zusammenhang besteht
  • Kann auch bei höher skalierten Variablen angewendet werden, die dann "downgegradet" und in Kategorien verpackt werden
  • Vergleicht die bei Unabhängigkeit theoretisch erwarteten mit den tatsächlich in der Stichprobe gefundenen/beobachteten Häufigkeiten
  • Weichen die beobachteten Häufigkeiten deutlich von den erwarteten ab, liegt ein signifikanter Zusammenhang vor
  • Der Chi-Quadrat-Wert ist nicht normiert und kann potenziell beliebig groß werden
  • Mit SPSS (oder einer Tabelle) lässt sich überprüfen, ob der Zusammenhang signifikant ist

Quellen:

Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

icon-logo-statistik

Geschafft – Geht doch!

Wenn ich dir einen kleinen Vorschlag machen dürfte, würde ich sagen, du schnappst dir einen Datensatz (z. B. von Andy Field) oder erfindest selbst einen mit einer überschaubaren Anzahl von Werten, überlegst dir eine sinnvolle Fragestellung und übst gleich einmal die Anwendung – entweder per Hand und/oder mit SPSS.

Viel Erfolg!

Und natürlich nicht vergessen: Belohnen!

Statistik kann ja gerne mal ein wenig dröge sein.

Daher sollte man sich's danach oder währenddessen unbedingt gut gehen lassen:

chi-quadrat-test-belohnung

Foto von Maddi Bazzocco auf Unsplash

icon-logo-statistik
Probleme beim lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

Effektstärke d (Cohens d) einfach berechnen!

frau-effektstaerke-d

Cohens d zeigt dir, wie groß ein gefundener Effekt bei Mittelwertsunterschieden ist. Das wäre z. B. eine Fragestellung wie: "Unterscheiden sich Frauen und Männer in ihrem Shopping-Durchhaltevermögen?". Wenn du diese Studie machen würdest, würdest du zunächst einen t-Test für unabhängige Stichproben durchführen und dann schauen, ob du ein signifikantes Ergebnis erhältst. Anschließend stellt sich dann die Frage, wie groß der gefundene Mittelwertsunterschied zwischen den beiden Gruppen ist und in welche Richtung er geht. Wobei wir hier vermutlich auch ohne Daten so unsere Vermutungen hätten....

Im Folgenden zeige ich dir, wie du (meist nach Durchführung eines Signifikanztests – Stichwort: p-Wert) durch die Berechnung von Cohens d eine Aussage über die praktische Relevanz des gefundenen Effekts machen kannst.

Da es für dieses Effektstärkemaß verschiedene Varianten gibt (man mag es in der Statistik ja gerne etwas kompliziert), dreht sich dieser Artikel ausschließlich um Cohens d zum Unterschied zweier Mittelwerte aus unabhängigen Stichproben. Der Begriff "unabhängige Stichproben" meint, dass bei allen Proband*innen nur einmal der interessierende Wert erhoben wurde.

icon-logo-statistik

Was sind Effektstärken?

Effektstärken bzw. Effektstärkemaße zeigen, wie stark ein in einer Studie beobachteter Effekt ist.

Je nach Inhalt der Untersuchung verwendet man unterschiedliche Effektstärkemaße. Diese werden in zwei Gruppen eingeteilt: Abstandsmaße und Zusammenhangsmaße.

Erstere zeigen meist die Größe der Abstände zweier Mittelwerte in Standardabweichungs-Einheiten an, während Letztere gewöhnlich Variationen des Korrelationskoeffizienten r nach Bravais-Pearson sind. Schickerweise lassen sich beide Gruppen ineinander überführen!

In welchen Bereich der Statistik gehören sie?

Die Effektstärken gehören in die Welt der schließenden oder Inferenzstatistik, können jedoch auch deskriptivstatisch verwendet werden – also nur zur Beschreibung dessen, was bei bestimmten Stichproben vorgefunden wird, ohne auf die dazugehörige Grundgesamtheit schließen zu wollen.

Im Bereich der Inferenzstatistik sollten sie zusätzlich zur Angabe des Ergebnisses eines Signifikanztests mit angegeben werden.

Was sagt Cohens d aus?

Cohens d ist eines der am häufigsten in der Statistik verwendeten Effektstärkemaße und beschreibt, wie stark sich die Mittelwerte zweier Stichproben unterscheiden.

Da Cohens d ein standardisiertes Abstandsmaß ist, ist es unerheblich, mit welchen Messinstrumenten die abhängige Variable erhoben wurde. Denn durch die Standardisierung werden evtl. mit verschiedenen Messinstrumenten gemessene Mittelwerte auf eine neue, gemeinsame dimensionslose Einheit gebracht und dadurch direkt vergleichbar.

Ein weiterer Vorteil ist, dass Cohens d im Gegensatz zum p-Wert nicht von der Stichprobengröße abhängt.

Grafisch dargestellt bedeutet der Mittelwertsunterschied, wie weit die beiden Mittelwerte auf der x-Achse auseinander liegen. Je näher, desto kleiner d – und je weiter auseinander, desto größer d und somit der gefundene Effekt.

Guckst du – hier liegen die Mittelwerte relativ weit auseinander, so dass ein mittlerer bis großer Effekt vorliegt. Ob dieser Effekt groß genug ist, um statistisch signifikant zu sein, muss man jedoch berechnen.

cohens-d
icon-logo-statistik

Berechnung Cohens d

Hier ist die Formel, um den standardisierten Mittelwertsunterschied bei zwei unabhängigen Stichproben zu berechnen.

Wir machen das jetzt zur oben erwähnten Fragestellung zum Unterschied des Shopping-Durchhaltevermögens von Frauen und Männern. Das Shopping-Durchhaltevermögen wird auf einer Skala von 0 (= gar nicht vorhanden) bis 100 (= stolze*r Preisträger*in der platinfarbenen Einkaufstasche) erhoben.

Die unten abgebildete Formel besteht im Zähler aus dem Abstand zwischen den beiden Mittelwerten, der dann anhand der gemeinsamen Streuung im Nenner relativiert und somit standardisiert wird. Da gewöhnlich von Stichproben-Mittelwerten ("x quer") auf die Erwartungswerte in der Population ("mü") geschlossen wird, verwendet man in der Praxis den zweiten, rechten Teil der Formel:

formel-cohens-d

Angenommen, wir hätten aus unseren Daten Folgendes errechnet:

- für die Frauen (Gruppe A) einen Mittelwert von 65.3 mit einer Standardabweichung von 4.5 

- für die Männer (Gruppe B) einen Mittelwert von 59.6 mit einer Standardabweichung von 3.9 

Die Mittelwerte für den Zähler haben wir nun schon, jetzt fehlt uns nur noch die gemeinsame Streuung für den Nenner. Dafür gibt es zwei Varianten:

Wenn die Stichprobengröße bei beiden Gruppen gleich ist, verwendest du die folgende Formel für die Berechnung der gemeinsamen Streuung:

formel-streuung-cohens-d

Wenn wir beispielsweise eine Stichprobengröße von 60 Personen in beiden Stichproben (= gleiche Anzahl von Personen in jeder Gruppe) haben, sieht die obige Formel nun so aus:

beispiel-cohens-d

Jetzt können wir alle Werte in die oberste Gleichung einsetzen und erhalten d:

ergebnis-cohens-d-1

Gemäß den Konventionen von Cohen (s. u.) wäre das ein ausgesprochen starker und praktisch bedeutsamer Mittelwertsunterschied!

icon-logo-statistik

Ist hingegen die Stichprobengröße ungleich, nimmst du diese schöne Formel für die gemeinsame Streuung:

formel-cohens-d-streuung

Bei Stichprobengrößen von 58 Frauen (Gruppe A) und 51 Männern (Gruppe B) sieht das dann so aus:

streuung-cohens-d-ungleich

In die Ursprungsformel eingesetzt:

cohens-d-ungleich

FAZIT:

In diesem Fall bleibt die Aussage gleich, da sich durch die unterschiedlichen Stichprobengrößen nichts verändert hat (dies ist jedoch nicht immer so).

Es liegt hier also ein ausgesprochen starker Mittelwertsunterschied vor, d. h. Männer und Frauen unterscheiden sich sehr stark in ihrem Shopping-Durchhaltevermögen (wer hätte das gedacht!). Die Frauen sind um 1.35 Standardabweichungen durchhaltefähiger als die Männer!

icon-logo-statistik

Konventionen für die Interpretation

Praktischerweise gibt es für die Interpretation der Mittelwertsunterschiede von J. Cohen (1988) vorgeschlagene Konventionen, welche als grober Anhaltspunkt zu verstehen sind:

  • |d| = 0.2  kleiner Effekt
  • |d| = 0.5  mittlerer Effekt
  • |d| = 0.8  großer Effekt

Die Striche um das d herum sind Betragstriche, was bedeutet, dass der Wert z. B. –0.2 oder +0.2 sein kann. Cohens d kann bei einem Mittelwertsunterschied, der nicht in die erwartete Richtung geht, also auch negativ werden.

Da es sich hierbei um Konventionen bzw. Orientierungspunkte handelt, sollte man die in einem Forschungsbereich typischen Effekte bei der Interpretation mit einbeziehen. Schau' dir also vor der finalen Einschätzung des Stärkegrades des gefundenen Effekts verschiedenen Studien zu deinem Thema an, um ein Gefühl dafür zu bekommen, was in dem jeweiligen Feld als "großer", "mittlerer" oder "kleiner" Effekt bezeichnet werden kann.

icon-logo-statistik

Cohens d mit SPSS & Online-Rechnern

An dieser Stelle habe ich eine schlechte und eine gute Nachricht für dich. Die schlechte zuerst:

SPSS spuckt d leider nicht direkt aus. Knurr.

Und jetzt die gute:

Dafür gibt's Psychometrica, eine wunderbare und sehr hilfreiche Seite zur Berechnung diverser statistischer Kennzahlen.

Nun Zum Abschluss noch ein Steckbrief:

icon-logo-statistik

Steckbrief Cohens d

  • Abstandsmaß für die Stärke/Größe von Mittelwertsunterschieden
  • Drückt den Unterschied in Standardabweichungs-Einheiten aus
  • Daher auch geeignet für abhängige Variablen, die mit verschiedenen Messinstrumenten erhoben wurden
  • Aufgrund der Berechnung von Mittelwerten nur bei metrischen Skalen anwendbar!
  • Cohens Konventionen zur Stärke des Effekts sind nur als grobe Richtlinie zu verstehen – wichtig, immer die im jeweiligen Forschungsbereich "typischen" Effekte zu recherchieren 
  • Kann nicht direkt mit SPSS, wohl aber mit Online-Rechnern wie Psychometrica oder der Freeware G*Power berechnet werden

Quellen:

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed). Hillsdale, N.J: L. Erlbaum Associates.

Ellis, P. D. (2010). The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Cambridge: Cambridge University Press.

Field, A. (2018). Discovering Statistics using IBM SPSS Statistics. London: SAGE.

Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler. München: Pearson.

icon-logo-statistik
Probleme beim lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

icon-logo-statistik

Geschafft – Respekt!

So viel für heute – die Darstellungen weiterer Effektstärkemaße folgen in weiteren Posts. 

Wenn du einen Beispiel-Datensatz zur Hand hast (z. B. von Andy Field), dann versuch' dich doch gleich mal an der Berechnung von d und überprüf' deine Ergebnisse bei Psychometrica!

Und jetzt: fette Belohnen!

Statistik ist ja gemeinhin nicht das allerflauschigste Fach.

Also sollten wir es uns zumindest beim und nach dem Lernen gut gehen lassen...

belohnung-effektstaerke

Mythos und Realität des p-Werts…

verrückter-mann-p-wert

Mythen und Märchen unterschiedlichster Couleur ranken sich um den p-Wert. Manche sagen, das habe irgendwie was mit Wahrscheinlichkeit zu tun, andere behaupten, das sei das, was in der Spalte "Sig." bei SPSS stünde, und wiederum andere meinen, der p-Wert sei die Wahrscheinlichkeit für die Nullhypothese (oder war's die Alternativhypothese?).

Um ein wenig Licht ins sagenumwobene Dunkel zu bringen, folgt hier zunächst die Kurzversion und anschließend eine ausführlichere Erklärung.

icon-logo-statistik

Die Kurzversion – quick & dirty

Der p-Wert zeigt an, wie wahrscheinlich dein Ergebnis ist, WENN DIE NULLHYPOTHESE STIMMEN WÜRDE.

Oder so: Der p-Wert ist eine BEDINGTE WAHRSCHEINLICHKEIT – nämlich die Wahrscheinlichkeit für dein spezielles Ergebnis (Mittelwert, Korrelation, F-Test etc.), unter der bedingung, dass die NULLHYPOTHESE Gilt. 

Vielleicht auch so: Wenn die Nullhypothese stimmen würde – wie wahrscheinlich ist dann dein Ergebnis?

Für die weitere Auswertung gilt gemäß der meist (noch) geltenden Konvention:

Ist der p-Wert, den man bei SPSS unter "Sig." ablesen kann, kleiner als .05 (p < 0.05) – ist dein Ergebnis also so unwahrscheinlich, dass es kein Zufall mehr sein kann – , so liegt ein signifikantes Ergebnis vor und die Nullhypothese wird verworfen.

CAVEAT: Ich setze in diesem Artikel Wissen zum Hypothesentesten und zu Verteilungen voraus! Falls du damit noch nicht vertraut bist, hast du wahrscheinlich mehr davon, wenn du dich erst mal ein wenig dazu schlau machst.

icon-logo-statistik

Grundsätzliches, um dich thematisch einzunorden

  • Wir befinden uns in der Welt der inferenz- oder schließenden Statistik
  • Hier im Speziellen in der WELT DES HYPOTHESENTESTENS
  • Beim Hypothesentesten geht es meist um Zusammenhänge, Unterschiede oder Veränderungen über die Zeit hinweg 
  • Ganz wichtig: GETESTET WIrd immer die Gültigkeit der Nullhypothese!
  • Wir haben eine Studie durchgeführt und wollen jetzt wissen, ob unsere Ergebnisse signifikant sind 
  • Dies können wir am p-Wert ablesen!
icon-logo-statistik

p-Wert – das Video

icon-logo-statistik

Die Basis des p-Werts: Verteilungen

Wenn du Hypothesentests durchführst, tust du das immer vor dem Hintergrund einer bestimmten Verteilung. 

Das kann z. B. die Normal- bzw. Standardnormalverteilung sein, oder aber die F-, Chi-Quadrat- oder t-Verteilung – jeweils abhängig vom Inhalt deiner Hypothese. Eine Verteilung enthält 100% aller Werte – oder in Wahrscheinlichkeiten ausgedrückt: die Fläche unter der Kurve ist stets 1.

Du testest immer ein Modell: eine Vorstellung davon, wie die Daten unter Gültigkeit der Nullhypothese verteilt sind. Wobei die Nullhypothese besagt, dass der postulierte Unterschied oder Zusammenhang NICHT existiert. Beim Hypothesentesten geht es also darum, zu überprüfen, ob die Nullhypothese nach wie vor gilt – oder aber verworfen wird. 

Als Ergebnis deines Hypothesentests erhältst du einen Wert (z. B. einen t-, z- oder F-Wert), der in der dazugehörigen Verteilung liegt.

Die Wahrscheinlichkeit dafür, dass dein Ergebnis-Wert genau an diesen bestimmten Punkt in der jeweiligen Verteilung fällt (wenn die Nullhypothese gilt), ist der p-Wert.

Beispiel t-Test:

Du führst eine Untersuchung zur Frage durch, ob Männer geduldiger sind als Frauen. Dann wäre die Nullhypothese: "Frauen und Männer unterscheiden sich nicht in ihrer Geduld.", wohingegen deine Alternativhypothese lautet: "Männer sind geduldiger als Frauen." (rechtsseitiger Test).

Da die Varianz unbekannt ist und es um Mittelwerts-Unterschiede geht, führst du einen t-Test durch und lässt 5% Irrtumswahrscheinlichkeit zu (α = 0.05). Nun erhältst du bei deiner Auswertung zum Beispiel einen t-Wert von 1.83.

Dessen Wahrscheinlichkeit, genau an diesen Punkt in der t-Verteilung zu fallen, sofern die Nullhypothese gilt, liegt bei 0.03 – und das ist der p-Wert, also in diesem Falle eine Wahrscheinlichkeit von 0.03 oder in Prozenten ausgedrückt: 3% (sehr unwahrscheinlich). Somit hast du ein signifikantes Ergebnis, verwirfst die Nullhypothese und nimmst deine Alternativhypothese mit 5%iger Irrtumswahrscheinlichkeit an. 

t-verteilung-p-wert
Weitere Verteilungen (als kleine Erinnerungsstütze):
p-wert-standardnormalverteilung
f-verteilung-p-wert
p-wert-chi-quadrat-verteilung
icon-logo-statistik

Der p-Wert am Beispiel der Varianzanalyse

Bei einer varianzanalytischen Fragestellung wie z. B. "Wirken sich Gestalttherapie, Psychoanalyse und Verhaltenstherapie unterschiedlich auf die Lebensqualität der Patient*innen aus?" verwendest du die F-Verteilung. Als Ergebnis deiner Auswertungen (ANOVA-Tabelle) erhältst du einen F-Wert, der in der F-Verteilung liegt. 

Dieser Wert fällt, wie oben beschrieben, in einen bestimmten Bereich der F-Verteilung, kommt also irgendwo unter der "Kurve" (= Dichtefunktion) zu liegen (in der Grafik stellt jetzt die weiße Fläche die äußeren 5% dar – der F-Wert ist rot abgetragen).

Du bekommst also wieder zunächst den Ergebnis-F-Wert – und dann die dazugehörige Wahrscheinlichkeit für diesen F-Wert, falls die Nullhypothese stimmt: d​en p-Wert. 

f-verteilung-mit-p-wert

Dieser p-Wert von p = 0.041 bedeutet nichts anderes als: Das Ergebnis deiner Untersuchung fällt an den Punkt, an dem die äußeren 4.1% der Verteilung beginnen.

Anders ausgedrückt: Die Wahrscheinlichkeit für dein spezielles Ergebnis (deinen F-Wert) oder ein noch kleineres Ergebnis liegt bei 0.041 (im Alltagsjargon: bei 4.1%), wenn die Nullhypothese tatsächlich zutrifft – ist also sehr gering.

Bitte beachten:

Ich gehe hier aus Einfachheitsgründen vom üblichen Signifikanzniveau von α = 0.05 aus, also den äußeren 5% einer Verteilung.

Dies sollte jedoch bei jeder Untersuchung individuell abgewogen und festgesetzt werden! 

icon-logo-statistik

Was hat der p-Wert mit der Signifikanz zu tun?

Liegt der p-Wert in den äußeren 5% einer Verteilung (p < 0.05), so liegt ein signifikantes Ergebnis vor!

Die äußeren 5% können sich je nach Hypothese rechts, links oder beidseitig befinden – in letzterem Fall jeweils in den äußeren 2.5% auf beiden Seiten (s. Abbildung Standardnormalverteilung).

Erhält man in einer Studie ein Ergebnis bzw. einen Wert, der in die äußeren 5% einer Verteilung hineinfällt, so ist dieses Ergebnis so unwahrscheinlich, dass man sagt:

das kann kein Zufall mehr sein!

Eine solche starke Abweichung vom bisher Bekannten muss ein signifikantes Ergebnis sein!

f-verteilung-wahrscheinlichkeiten

WIE unwahrscheinlich (oder wahrscheinlich) dieses Ergebnis genau ist, sagt der p-Wert aus.

Daher lässt sich an der Höhe des p-Werts die Signifikanz ablesen: 

Ist der p-Wert kleiner als 0.05, so liegt ein signifikantes (weil sehr unwahrscheinliches) Ergebnis vor.

In diesem Falle verwirfst du die Nullhypothese und nimmst deine Alternativhypothese an. Wenn dein p-Wert größer als 0.05 ist, verwirfst du deine Alternativhypothese und behältst die Nullhypothese bei.

icon-logo-statistik

Beispiel für den p-Wert bei SPSS: Korrelation

Der folgende Datensatz ist von Andy Field (dessen Arbeit ich sehr schätze). Du kannst dir hier ganz viele bunte Datensätze von ihm holen und damit üben.

Fragestellung in diesem Datensatz:

Kann der Verkauf von Alben einer Band (abhängige Variable bzw. Kriterium) aus den folgenden drei  Variablen ( Prädiktoren) vorhergesagt werden:

  • Werbe-Budget
  • Häufigkeit, mit der die Lieder der Band im Radio gespielt werden
  • Band-Image

Als Methode kommt hier die Regressionsanalyse zum Einsatz, da es um Vorhersagen geht.

Im ersten Output siehst du im oberen Drittel die Korrelationen (Zusammenhänge), welche die Grundvoraussetzung für die Berechnung einer Regression darstellen (Korrelationskoeffizienten r nach Bravais-Pearson = Produkt-Moment-Korrelation).

Kleiner Hinweis: In diesen Tabellen sind die Informationen jedes Abschnitts immer doppelt vorhanden – jeweils einmal oberhalb und unterhalb einer gedachten Diagonalen von links oben nach rechts unten.

Hier ist die Nullhypothese, dass es keinen Zusammenhang zwischen jeweils zwei Variablen gibt, also zwischen z. B. verkauften Alben und Band Image, zwischen Band Image und Werbe-Budget etc..

Im mittleren Bereich (bei "Sig.") findest du dazu die Auswertung (p-Werte)Sind die Korrelationen statistisch signifikant?

p-wert-korrelation

1. Zeile – Album Sales:

Hier kannst du an den aufgeführten p-Werten ablesen, dass die Anzahl an verkauften Alben signifikant mit den drei Prädiktoren korreliert: dreimal ",000" in der Zeile "Album sales".

Hinweis: Bei SPSS werden gewöhnlich immer nur die ersten drei Nachkommastellen angegeben. Irgendwann kommt dann vermutlich auch mal eine andere Zahl als Null, z. B. so was wie 0.00072134.

Die p-Werte sagen uns, dass die Wahrscheinlichkeit dafür, ein solches Ergebnis zu erhalten, wenn die Nullhypothese stimmen würde, unterhalb von 0.000% liegt. Somit ist das Ergebnis unter Gültigkeit der Nullhypothese extrem unwahrscheinlich.

Und was machen wir nun?

Richtig, wir verwerfen die Nullhypothese und nehmen die Alternativhypothese an, die da heißt:

Es gibt einen hochsignifikanten Zusammenhang (da p = 0.000) zwischen der Anzahl an verkauften Alben und jedem der drei Prädiktoren!

2. Zeile: Advertising budget:

Hier sind beide p-Werte für den Zusammenhang zwischen dem Werbe-Budget und der Anzahl an im Radio gespielten Liedern sowie dem Band-Image auf dem 5%-Niveau NICHT signifikant, da größer als p = 0.05.

Es gibt also weder einen signifikanten Zusammenhang zwischen dem Werbe-Budget und der Anzahl an im Radio gespielten Liedern noch zwischen dem Werbe-Budget und dem Band-Image. Beide dazugehörigen Nullhypothesen werden beibehalten.

3. Zeile: No. of plays on radio:

Der p-Wert von .005 zeigt einen hochsignifikanten Zusammenhang zwischen der Anzahl an im Radio gespielten Liedern und dem Band-Image.

Also verwerfen wir die Nullhypothese und nehmen die Alternativhypothese an:

Es gibt einen hochsignifikanten Zusammenhang (da p = 0.005) zwischen der Anzahl an im Radio gespielten Liedern und dem Band-Image!

icon-logo-statistik

Beispiel für den p-Wert bei SPSS: F-Test

Und weiter geht's: wir sind immer noch bei dem Beispiel von oben.

Im nächsten Schritt wird mit dem F-Test der Varianzanalyse überprüft, ob das Modell mit den drei Prädiktoren insgesamt etwas taugt.

Du denkst dir jetzt wahrscheinlich: "Wieso Varianzanalyse – ich dachte, wir machen eine Regression?!"

Ich gebe zu, dass das etwas verwirrend ist, aber das liegt daran, dass die Regressions- und Varianzanalyse verwandt sind und demselben mathematischen Modell entstammen, dem Allgemeinen Linearen Modell, für die Eingeweihten kurz: ALM

Aus diesem Grund wird bei SPSS bei jeder Regression immer zunächst der F-Test der Varianzanalyse ausgegeben. Dieser wird auch "Globaler F-Test " oder "Omnibus-Test" genannt und prüft, ob das Gesamt-Modell signifikant ist.

Die Nullhypothese lautet: Keiner der Prädiktoren hat einen Einfluss auf das Kriterium, also auf die Anzahl an verkauften Alben.

p-wert-anova

Hier sehen wir in der ersten Zeile bei "Regression" einen sehr hohen F-Wert (129.498) und den dazugehörigen p-Wert von .000.

Wir haben somit wieder ein hochsignifikantes Ergebnis und können davon ausgehen, dass das Regressions-Modell mit den drei Prädiktoren insgesamt etwas taugt.

Also verwerfen wir die Nullhypothese und nehmen die Alternativhypothese an, die in diesem Falle lautet:

Mindestens einer der Prädiktoren hat einen Einfluss auf die Anzahl an verkauften Alben!

Welcher das ist bzw. welche das sind, sieht man dann in der Ergebnistabelle mit dem Namen "Koeffizienten", die hier jedoch nicht mehr aufgeführt ist. Falls dich das interessiert, kannst du dir einfach diesen Datensatz holen (oder einen anderen Regressions-tauglichen) und die Tabelle von SPSS ausspucken lassen.

icon-logo-statistik

Zusammenfassung

  • Du erhältst als Ergebnis deiner Untersuchung (mindestens) einen Wert (z, t, F etc.).
  • Dieser fällt an einen bestimmten Punkt in der dazugehörigen Verteilung. 
  • Jedem Punkt in der Verteilung ist eine bestimmte Wahrscheinlichkeit zugeordnet.
  • Nun liest du in den Ergebnistabellen (z. B. von SPSS) bei "Sig." die Wahrscheinlichkeit dafür ab, dass dein Ergebnis-Wert genau an diesen Punkt der Verteilung fällt, wenn die Nullhypothese gilt. Dies ist der p-Wert.
  • An der Höhe des p-Werts kannst du sehen, ob dein Ergebnis signifikant ist (das wäre ein p < 0.05).
  • Jetzt entscheidest du dich, ob du die Nullhypothese verwirfst und deine Alternativhypothese annimmst (p < 0.05) – oder aber die Nullhypothese beibehältst (p > 0.05).
icon-logo-statistik

Geschafft!

chamaeleon-p-wert

Hut ab! Tapfer durchgehalten, wenn du bis hierher gelesen hast.

Ich hoffe, dass du jetzt für künftige Interpretationen des p-Werts gut gerüstet bist!

Probier's doch gleich mal aus: Lad' dir ein paar Datensätze runter und spiel damit!

Denn: Statistik darf tatsächlich Spaß machen!

auch wenn das erst mal kontraintuitiv erscheint...

icon-logo-statistik
Probleme beim lernen von Statistik?
Wie wär's mit Lern-Tipps & einer Liste der besten Ressourcen?
kiss-the-frog-cover

Schnapp' dir dein gratis E-Book und werd' zum Statistik-Crack!

>