Dankeschön &
Herzlich willkommen BEIm
CRASHKurs deskriptive statistik!
Deinem deskriptivstatistischen Glück steht nun nichts mehr im Wege...
Meld' dich bitte gleich über diesen Button auf der Kurs-Plattform an, auf der der Kurs wohnt:
TIPP: SETZ' DIR BITTE EIN LESEZEICHEN FÜR DIE KURS-SEITE,
DANN FINDEST DU SIE LEICHT WIEDER!
Falls du den Kurs bereits vor längerer Zeit gekauft hast:
Meld' dich einfach über den obigen Button auf der Kurs-Plattform an – die Inhalte sind gleich geblieben.
Nun wünsche ich dir ganz viel Spaß mit dem Kurs & gutes Lernen!

Hallo Melanie,
warum sind die Schulnoten keine intervallskalierte Variablen, da ist der Abstand zwischen Note 1 und Note 2, Note 3 und Note 4 ja auch jeweils 1 Notenpunkt?
Hallo liebe Merve,
bei Schulnoten streiten sich die Geister: Denn wenn du z. B. an Ausfragen in Geschichte oder Englisch denkst, gibt es keinen klaren Punktekatalog dafür, wann die 1+ endet oder beispielsweise die 2- beginnt. D. h., vieles in der Notengebung ist der individuellen Einschätzung überlassen und drückt somit eher eine Rangfolge im Sinne von besser oder schlechter aus. Somit sind die Schulnoten also ordinalskaliert, werden aber intervallskaliert verrechnet – einfach, weil es praktischer ist.
Gäbe es hingegen in allen Fächern ganz klare Richtlinien, wann welche Notenstufe endet bzw. beginnt und was dafür genau erbracht werden muss, hätte man eine intervallskalierte Variable.
Ich hoffe, das hilft dir!
Liebe Grüße und gutes Lernen,
Melanie
Hi Melanie,
Ich habe 2 Fragen zu den Boxplots.
1. Haben die Whiskers eine tiefere Bedeutung, also haben die irgendwas mit der Standardabweichung zu tun oder wie interpretiere ich die (für Tante Erna?)?
2. Im Video dazu sagst du, dass man 13,5 x 3 rechnen muss, um auf die Extremwerte zu kommen. Müsste man nicht 20,25 x 3 rechnen? Die 13,5 sind ja der IQR.
Und alle Werte zwischen der maximalen Whiskerlänge und Whiskerlänge x 3 sind dann „normale“ Ausreißer, habe ich das richtig verstanden?
So viele Fragen, sorry?
Liebe Grüße,
Nadia
Hallo liebe Nadia,
du kannst selbstverständlich sehr gerne so viele Fragen stellen wie du möchtest!
Zu 1.:
Ja, die Whisker haben eine tiefere Bedeutung ;).
Die Länge der Whisker zeigt an, die sehr die Werte streuen und somit, wie sehr sich die Versuchspersonen im untersuchten Merkmal voneinander unterscheiden. Lange Whisker: große Streuung und große Unterschiede, kurze Whisker: geringe Streuung und wenig Unterschiede.
Zu 2.:
Um zu bestimmen, wo die Ausreißer beginnen, muss man IQR, also die Länge der Box, mit 1.5 multiplizieren.
Um zu bestimmen, wo die Extremwerte beginnen, muss man das gleiche Spiel machen, nur diesmal IQR mit 3 multiplizieren.
Ja, alle Werte, die zwischen dem Whisker-Ende und dem Dreifachen der Box liegen, sind Ausreißer.
Liebe Grüße und ein schönes Wochenende,
Melanie
Hi Melanie,
Ich habe den Kurs jetzt einmal durch und bin echt begeistert, wie verständlich du das alles rüberbringst. Vielen Dank dafür!?
Ich habe noch eine Frage zum letzten Video: beim Beispiel mit dem Alter gibt SPSS ja einen IQR von 25 aus. Wie interpretiere ich diesen Wert? Also was sind die 25? Oder brauche ich den eigentlich wirklich nur zum Boxplot zeichnen? Das verwirrt mich ziemlich irgendwie.
Danke schon mal für deine Antwort, ich werde mich jetzt deinem Inferenzstatistikkurs widmen?
Hallo liebe Nadia,
vielen Dank für dein Feedback, freut mich sehr!
Ja, IQR braucht man zum Berechnen der Whisker, aber das hat auch eine inhaltliche Bedeutung: hier liegen die mittleren 50% aller Werte, also zwischen Q1 und Q3.
Im Beispiel wäre das zwischen knapp 30 und knapp 60 Jahren, d. h. 50% der Teilnehmer*innen waren zwischen ca. 30 und 60 Jahren alt.
Viel Spaß im Inferenzstatistik-Kurs!
Liebe Grüße,
Melanie
Mir ist noch eine Frage zur Korrelation eingefallen. Gibt es spezielle Koeffizienten für gemischte Skalenpaare wie nominal/ordinal, nominal/metrisch oder ordinal/metrisch? Oder verwendet man da die Methode für die niedrigere der beiden Skalen?
Ja, die gibt es, gehen jedoch über den Inhalt des Kurses hinaus und werden seltener gebraucht – deshalb habe ich sie nicht aufgenommen.
Liebe Grüße!
Schulnoten sind ja ordinalskaliert, das würde ja bedeuten man kann hier keinen Mittelwert bilden, das habe ich noch nicht ganz verstanden
Hallo liebe Diane,
ja, richtig, Schulnoten sind an sich ordinalskaliert (man denke beispielsweise an die z. T. eher „willkürliche“ Benotung von Deutsch-Aufsätzen oder Ausfragen in Englisch), werden aber aus Praktikabilitäts-Gründen wie eine intervallskalierte Variable behandelt, damit auch Mittelwerte berechnet werden können.
Das ist wirklich ein Sonderfall, denn normalerweise darf man Variablen nicht „upgraden“.
Ich hoffe, das hilft dir!
Liebe Grüße,
Melanie
Liebe Melanie,
im letzten Video (Video 7) bin ich bei der Aussage hängen geblieben, dass die Variable „Anzahl an Kindern“ stetig ist. Ich hätte aus dem Bauch gesagt, dass „Kinder“ diskret sind, eben weil man ja nicht immer kleiner Teile von Kindern messen kann (anders als bei Gewicht, Gehalt….). Es wäre toll, wenn du mir das noch einmal erläutern könntest.
Vielen Dank für deine Mühe und bis bald!
Meike
Hallo liebe Meike,
hier scheiden sich die Geister und auch die Lehrbücher sind uneins.
An sich – rein vom gesunden Menschenverstand her – ist das natürlich ein diskretes Merkmal, aber es wird stetig verrechnet. Das hört man ja z. B. auch, wenn von der durchschnittlichen Kinderzahl in Deutschland gesprochen wird.
Ich hoffe, das hilft dir!
Liebe Grüße, Melanie
Liebe Melanie,
ich habe leider nicht herausfinden können, ab wann ich jetzt „behaupten“ darf, dass zwischen zwei nominalskalierten Merkmalen, durch das Chi-Quadrat, ein Zusammenhang besteht. Anders als beim Rangkorrelationskoeffizienten R, sind ja eben keine Bereiche angegeben, für keinen ZSH, mittel, sowie stark. Das ist ja beinahe mehr so ein Gefühlsding, weswegen das Chi-Quadrat für mich ja beinahe wie ein „Wischi-Waschi“ für mich vorkommt. Gibt es irgendetwas an das ich mich da trotzdem halten kann, worauf sich die Statistiker durch ihre Erfahrung geeinigt haben?
Liebe Grüße und sooooo ein super Kurs! Bringt mir wirklich mal Spaß. Hätte dich ja gerne als Allrounddozentin für alle meine Module, besonders die „Standardhorrorkompliziertlangweiligen“! 😀
Liebe Noemi,
vielen Dank für deine Nachricht und dein nettes Feedback zum Kurs!
Man kann einen Maximalwert ausrechnen, den Chi-Quadrat annehmen kann, aber meines Erachtens wird das eher selten gemacht.
Was hingegen getan wird, ist, mit einem Signifikanztest zu überprüfen, ob das Ergebnis bzw. der Zusammenhang auf die Grundgesamtheit übertragen werden darf.
Da das jedoch in den Bereich der schließenden Statistik fällt, habe ich das im Kurs nicht behandelt (wird in meinen anderen Kursen besprochen).
Ich hoffe, das hilft dir weiter!
Liebe Grüße und weiterhin gutes Lernen!
Melanie
Danke Melanie!
Dann mache ich mir da keine Platte mehr, da ich gerade vom (intensiveren) Inferenzstatistikkurs die Einführung schon anschaue 😉 Ich warte also bis dahin.
Liebe Grüße,
Noemi
Wunderbar, liebe Noemi!
Dann hoffe ich, dass sich dort die Frage klärt. Ansonsten im Kurs einfach nochmal fragen!
Gutes Lernen und liebe Grüße,
Melanie
Hallo Melanie, warum ist der Modus bei der Aufgabe zum Selbermachen im zweiten Video 67? Ist er nicht 91?
Viele Grüße
Nadine
Hallo liebe Nadine,
der Modus ist der Wert (oder die Merkmalsausprägung), der am häufigsten vorkommt.
In dieser Datenreihe kommt die 67 zweimal vor und die 91 nur einmal.
Daher ist die 67 der Modus.
Liebe Grüße,
Melanie
Danke Dir für die schnelle Antwort. Dachte, der Modus sei der höchste Wert, nicht der, der am häufigsten vorkommt. Jetzt ist alles klar 🙂
Liebe Melanie,
ich schaue mir gerade dein Video zu Skalenniveaus an. Gerade frage ich mich, wie das mit Zeit ist. Da ich keinen natürlichen Nullpunkt habe müsste dies ja dann intervallskaliert sein – richtig? Rein theoretisch könnte ich ja auch eine Stunde definieren, welche 100 Minuten hat.
Liebe Pia,
die Zeit gilt tatsächlich als verhältnisskaliertes Merkmal, da es durchaus einen Nullpunkt gibt – ob dieser natürlich ist, sei dahingestellt – da lässt sich streiten.
Es gibt aber auf jeden Fall keine negativen Werte bei der Zeit.
Ich hoffe, das hilft dir!
Liebe Grüße!
Liebe Melanie,
ich habe eine Frage bzgl. der Quantile:
In meinem Skript werden diese unter den Streuungsmaßen genannt und nicht unter den Lagemaßen. ? Mir erscheint es aber ebenfalls sinnvoller, wie es bei Ihnen aufgeführt ist. Hätten Sie eine Idee wieso dies in meinem Skript anders ist.
Liebe Grüsse,
Romy
Hallo liebe Romy,
die Quantile werden gewöhnlich zu den Lagemaßen gezählt – das kannst du auch verifizieren, wenn du das googelst.
Der Interquartilsabstand hingegen gehört zu den Streuungsmaßen. Vielleicht bezieht sich dein Skript darauf.
Liebe Grüße und weiterhin gutes Lernen,
Melanie
Oh stimmt, die Quantile kommen erst aufgrund des IQR im Skript vor. Lieben Dank für die schnelle Antwort. Die Videos machen echt Spass!
Freut mich sehr!
Liebe Grüße
Hallo Melanie,
kann ich bei der y-Achse die Häufigkeiten auch in Klassen einteilen? Oder nur auf der X-Achse? Z.b. im Histogramm?
Lg und Danke Katja
Hallo liebe Katja,
ja, du könntest vermutlich auch die y- Achse in Klassen einteilen.
Das ist aber eher ungewöhnlich, zumindest habe ich das noch nie gesehen.
Liebe Grüße,
Melanie
Hallo Melanie,
ich habe eine Frage bezüglich des Interquartilsabstands. Ich kann mir nicht genau vorstellen, was mit den „mittleren 50% des Datensatzes“ gemeint ist? Wie muss ich mir das inhaltlich und grafisch vorstellen?
Liebe Grüße und vielen Dank, Justine
Liebe Justine,
ich versuche das mal mit einem stark vereinfachten Beispiel:
Stell‘ dir einen mit 1000ml Wasser gefüllten Messbecher vor.
Dann liegen die mittleren 50% des ganzen Wassers (500ml) zwischen 250ml und 750ml.
Oder du hast 100 Dominosteine, die du aneinanderreihst. Dann liegen die mittleren 50% des Datensatzes von 100 Steinen zwischen dem 25. und dem 75. Stein.
Liebe Grüße,
Melanie
Hallo Melanie,
ich habe zwei Fragen an dich.
1. Ist auf Folie 124 (Folien vom Vormittag) ebenfalls ein Histogramm dargestellt, wie auf Folie 130?
2. Ich habe bei deinem Beispiel zur Berechnung des Boxplots nicht verstanden, wie man die Extremwerte berechnet und ggf. einzeichnet. Kannst du mir das anhand eines Beispiels erklären?
Ganz liebe Grüße und vielen Dank, Justine
Liebe Justine,
1. die beiden Grafiken, wo „Wie viele Std. Fernsehen pro Tag“ drübersteht, sind Histogramme.
2. Die Extremwerte werden nicht berechnet, sondern einfach nur entsprechend ihres Werts eingezeichnet. Wenn ein Extremwert z. B. 85 wäre, dann zeichnest du ihn auf der Skala bei 85 ein.
Du kannst dir dazu auch gerne noch mein YouTube-Video ansehen: https://www.youtube.com/watch?v=O3ZUbMxHnaQ&t=4s
Liebe Grüße,
Melanie
Hallo Melanie,
ich hätte zwei Fragen für dich:
1. Rechnet man bei ordinalskalierten Variablen und beim Rangkorrelationskoeffizienten r mit den Rangplätzen oder mit dem Abstand der Werte der Rangplätze (z.B. Rangplatz 1: 9, Rangplatz 2: 5 –> Abstand zwischen Werte der Rangplätze wäre 4)?
2. Ist Kendalls Tau äquivalent zum Rangkorrelationskoeffizienten r und kann bei gleicher Fragestellung verwendet werden?
Herzliche Grüße,
Justine
Hallo liebe Justine,
zu 1.: bei Spearman (Rangkorrelationskoeffizient) rechnet man mit den Differenzwerten, wenn kein Rangplatz mehrfach besetzt ist (das ist dann die vereinfachte Formel) oder mit den Rängen (ausführliche „Riesenformel“)
Zu 2.: Prinzipiell kann Kendalls Tau für die gleiche Fragestellung verwendet werden. Klassischerweise ist es jedoch so, dass du Spearman verwendest, wenn du den Pearson-Korrelationskoeffizienten nicht anwenden kannst. Das wäre z. B. dann der Fall, wenn die Daten nicht normalverteilt sind oder Ausreißer vorliegen. Dann ist Spearman das bessere Maß. Liegen von vornherein ordinalskalierte Variablen vor, wird gewöhnlich Kendalls Tau verwendet.
Liebe Grüße und weiterhin gutes Lernen,
Melanie
Liebe Melanie,
wie ich es verstanden habe, misst die Produkt-Moment-Korrelation den linearen Zusammenhang zwischen zwei metrischen Variablen. Gibt es eine Möglichkeit, einen LINEAREN Zusammenhang zwischen einer nominalen und einer intervallskalierten Variablen zu messen? Damit würde ich die Frage beantworten wollen, ob es eine lineare Beziehung zwischen diesen zwei Merkmalen gibt.
Vielen Dank für die hilfreichen Videos und Deine Antwort! LG
Liebe Adriana,
als Maß dafür müsstest du die punktbiseriale Korrelation verwenden, die jedoch meines Erachtens keinen linearen Zusammenhang misst.
Und: natürlich sehr gerne!
Liebe Grüße,
Melanie
Liebe Melanie,
gibt es eine Möglichkeit, sich mit SPSS alle Werte ausgeben zu lassen, die z. B. drei Standardabweichungen unter dem Mittelwert liegen? Oder muss ich mir den Mittelwert und die Standardabweichung ausgeben lassen und es händisch berechnen? Vielen Dank! LG
Liebe Adriana,
das kann man mit etwas komplizierten Berechnungen m. E. schon machen – aber eben kompliziert.
Vermutlich ist die händische Variante da besser.
Schönes Wochenende und liebe Grüße,
Melanie
Liebe Melanie,
aus den Videos habe ich gelernt, wie man die Varianz berechnet. Gibt es eine Möglichkeit, den Maximalwert der Varianz zu berechnen? Zum Beispiel, die Varianz für ein Item liegt bei 3. Ich würde aber gerne wissen, wie groß die Varianz bei einer Antwortskala von 1 bis 10 sein könnte. Vielen Dank! LG
Liebe Adriana,
das ist mir leider nicht bekannt.
Habe das gerade gegoogelt und vorwiegend Mathe-Foren gefunden.
Schau doch einfach mal selbst, was Google so hergibt, und ob du in den Foren eine Antwort findest.
Liebe Grüße,
Melanie
Liebe Melanie,
ich habe eine Frage zum Video 3 „Streuungsmaße“. Aus der SPSS-Ausgabe „Deskriptive Statistik“ zu „Wie viele Stunden Fernsehen pro Tag“ und „Familienstand“ ergibt sich ein IQR von jeweils 3. Bedeutet das, dass die mittleren 50 % der Werte bei 3 liegen? Was verrät mir diese Zahl, ohne einen Boxplot heranzuziehen? Vielen Dank! LG Adriana
Liebe Adriana,
das bedeutet, dass die Länge der Box 3 (Stunden) beträgt und dort, wie du richtigerweise schreibst, die mittleren 50% aller Werte liegen.
Leider zeigt SPSS in dieser Ausgabe nicht Q1 und Q3 an, sondern nur den Median.
Beim Familienstand lässt sich wegen der Nominalskala kein IQR berechnen – SPSS gibt ihn dennoch aus.
Liebe Grüße,
Melanie
Hallo,
Ich komme super mit dem Kurs zurecht, allerdings verstehe ich nicht so recht, wie man bei den Aufgaben auf den zweiten Wert für Q3, also 67 kommt, den ersten Wert habe ich auch so errechnet. Vielen Dank!
Hallo liebe Cosima,
du kannst bei einem ungeraden Datensatz bei der Berechnung von Q1 und Q3 entweder den Median (hier die 51) in beide Hälften dazunehmen oder aber „draußen“ lassen.
Das wird in der Statistik unterschiedlich gehandhabt.
Die 67 bekommst du dann für Q3, wenn du den Median zur oberen Datenhälfte dazunimmst.
Dann lautet die obere Datenhälfte:
51 67 67 78 91
Davon ist die 67 der Median und somit Q3.
Liebe Grüße und weiterhin gutes Lernen,
Melanie