• Liebe User, bitte beachtet folgendes Thema: Was im Forum passiert, bleibt im Forum! Danke!
  • Hallo Gemeinde! Das Problem leidet zurzeit unter technischen Problemen. Wir sind da dran, aber das Zeitkontingent ist begrenzt. In der Zwischenzeit dürfte den meisten aufgefallen sein, dass das Erstellen von Posts funktioniert, auch wenn das Forum erstmal eine Fehlermeldung wirft. Um unseren Löschaufwand zu minimieren, bitten wir euch darum, nicht mehrmals auf 'Post Reply' zu klicken, da das zur Mehrfachposts führt. Grußworte.

Normalverteilt? (...und Folgen für Mittelwertsvergleiche)

Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Tag,

zweiter Fred zu meiner DA. Wenn mir niemand ein nettes anderes Statistikforum empfiehlt, in dem fähige Leute unfähigen Menschen wie mir in verständlicher Sprache helfen, folgen wahrscheinlich auch noch ein paar ::]:

Also, es geht um Ästhetikurteile. Eine Person ist einer von 8 möglichen Farben eines Bildes zugeordnet worden und hat dann zu insgesamt vier Varianten dieses Bildes (bei denen 2 andere Dimensionen als die Farbe variiert wurden) jeweils neun Fragen beantwortet, von denen 8 zu ein mehr oder weniger etabliertes Ästhetik-Instrument bilden, das in dieser Kurzversion in den bisherigen Studien immer noch akzeptable Gütekriterien aufwies.

Ich will ganz billig Mittelwertsunterschiede testen:
- Werden die ansonsten selben Bilder je nach Farbe unterschiedlich bewertet?
- Wird die letzte (neu(nt)e) Frage anders bewertet als die 8 Fragen des Ästhetik-Instruments?
- Unterscheiden sich die jeweils beiden Stufen von Dimension B und C in der Bewertung?
- Hat das Alter oder Geschlecht einen Einfluss auf die Bewertung?
- uswusf.

Dazu habe ich - je nach Fragestellung -, z.B. die Bewertungen aller 4 Bildvarianten pro Item in seinen mittleren Wert zusammengefasst (z.B. "alles in allem find ich das ästhetisch" waren die Urteile für Varianten A-D 3,3,4,5 -> zusammengefasster Wert = 15/4 = 3,75).
Und dann gibt es ja nunmal tolle Instrumente wie t-Tests, ein- und mehrfaktorielle ANOVAs, MANCOVAs,... Die Standardtests setzen aber alle drei Sachen voraus:
- Intervallskalierung der abhängigen Variablen (ist bei mir gegeben).
- Gleiche Varianzen zwischen den Gruppen (ist bei mir laut Levenetest auch überall eindeutig nicht verletzt)
- Normalverteilung der abhängigen Variablen.

Und da haben wir dann auch den Salat. Von wegen, ab einer Gruppengröße von 30 verlass ich mich auf die NV (wie sie auch in den bisherigen Studien zum Instrument auftraten)...
Kolmogorov-Smirnov fliegt mir bei den zusammengefassten Werten sowas von um die Ohren! Ein Blick in die Verteilungen zeigt auch, warum. Schiefe und Exzess sind jeweils im Rahmen, s.u.. Aber: Sehr viele Leute haben entweder gar keine Varianz zwischen den Varianten bei derselben Frage erzeugt oder anderweitig so geantwortet, dass sich im Durchschnitt ein ganzzahliger Wert ergibt. Die Zwischenwerte (x.25 - x.50 - x.75) sind deutlich seltener. Mal ein anschauliches Beispiel:
clipboard011uyc.png

Die Skala geht von 1-5, ich war nur zu faul die Achse manuell anzugeben.

Links das "echte" Item, rechts habe ich schon ganz böse transformiert:
- 1 und 1,25 -> 1
- 1,5 bis 2,25 -> 2
- 2,5 bis 3,25 -> 3
usw.


So, um mal langsam zum Punkt zu kommen:
- Ist die Transformation zulässig?
- Dieses Item ist transformiert immer noch ziemlich schief und verschoben, aber wenigstens eingipflig. Die meisten anderen Items sehen noch besser aus.
- Der K-S-Test wird trotzdem noch fast überall mit einem p-Wert von <0,001 signifikant. Wenn ich mich recht erinnere, wird er das bei sehr großen Gruppengrößen aber auch ziemlich schnell?

Und zur praktischen Bedeutung:
- ANOVAs (und damit natürlich auch t-Tests) reagieren auf die Verletzung der NV-Voraussetzung ja relativ robust. Jedenfalls, solange die Verteilung nicht allzu breitgipflig oder zweigipflig ist, und solange die Varianzen homogen sind (was sie wie gesagt absolut sind). Aufgrund des großen N werden meine Unterschiede aber eh (auch die ganz kleinen) alle signifikant, ein konservatives Reagieren ist also nicht das Problem. Aber:
- Was ist zu breitgipflig? Gilt da Augenmaß, oder gibt's auch eine objektivere Größe?
- Ich habe bei den meisten Items eine Schiefe von -0.15 bis -0.3 und einen Exzess/Kurtosis von ~-0.4. Für sich genommen beides nicht so wild, aber in der Kombination? Sollte ich transformieren?
- Welche Items nehm ich für die Signifikanztests? Die umkodierten (die einen Rundungsfehler von locker mal ~0.1 bis 0.2 haben) oder die originalen?!


Und zu guter letzt eine Spezialfrage: Ich habe bei den Farben sehr unterschiedlich große Gruppengrößen (die Teilnehmer konnten ihre Lieblingsfarbe selbst wählen, und da gab es erwartungsgemäß Präferenzunterschiede). Ganz grob:
1x ~330
3x ~90
4x ~50

Wie beeinflusst das meine Mittelwertsvergleiche? Kriegen die Quadratsummen der Riesengruppe da nicht einen Mega-Einfluss? Wäre aber wohl auch nur ein Problem, wenn meine Varianzen zwischen den Gruppen unterschiedlich wären? Ich konnte dazu auf die Schnelle nichts Gescheites rausfinden.





So, jetzt ist es doch noch richtig spät geworden. Ich hoffe, ich hab nicht allzu viel geistigen Dünnpfiff losgelassen. Danke fürs Lesen!
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
8.556
Reaktionen
992
Website
lifehacker.com
deine merkmale waren auch hier höchstens ordinalskaliert.
mittelwertbildung ist auf diesem skalenniveau NICHT sinnvoll. mittelwertvergleich dann wohl auch nicht (auch wenn es häufig benutzt wird)

was du machen kannst sind nichtparametrische rangtests: kruskal-wallis test oder test von friedman.
damit hast du dann auch das problem mit dem verstoß gegen die normalverteilung gelöst.
 

voelkerballtier

Coverage, Staff, Coding
Mitglied seit
01.12.2003
Beiträge
1.603
Reaktionen
0
Also deine Verteilungen sehen etwas komisch aus. In den Bins 1,2,3,4,5 sind immer sehr viele Werte, dafür im darauffolgenden jeweils gar keiner. Irgendwie drängt sich mir da der Verdacht auf, dass du möglicherweise einen Fehler beim Binning gemacht hast. Oder gibt es dafür eine erklärung?
 

Amad3us

Guest
-Transformieren würde ich eher nicht. Ist immer extrem schlecht zu interpretieren.
Hinzu kommt das deine Transformation nicht 1-1 ist sondern eher eine Zusammenlegung von Werten.

-Eine direkte Alternative ist das was Mucho angesprochen hat: nonparametrische Tests. Hier hast du was Normalverteilung betrifft auf jeden Fall kein Problem. Ungleiche Gruppenvarianzen können aber auch hier den Test "verfälschen". (Aber das scheint ja in deinem Fall kein Problem zu sein)


-Das der KS-Test ablehnt ist bei dem großen Stichprobenumfang nicht sonderlich informativ.(Jede in der Praxis vorkommende Verteilung wird schließlich bei genügend großem n abgelehnt). Auf was man da eher achten sollte, sind Maße für die Stärke der Abweichung.
Was die Robustheit der t-Tests angeht so spielt hier vor allem die Schiefe eine zentrale Rolle. (Als kleine Regel: Tests auf Mittelwerte sind empfindlich gegenüber Abweichungen in der Schiefe, Tests auf Varianzen sind empfindlich gegenüber Abwecihungen in der Kurtosis)



Wie beeinflusst das meine Mittelwertsvergleiche? Kriegen die Quadratsummen der Riesengruppe da nicht einen Mega-Einfluss?

Wenn du z.B. Paarvergleiche machst sind die entsprechenden Konfidenzintervalle für Gruppenpaare mit großem Stichprobenumfang enger.
Für den globalen F-Test ist deine Power besonders groß, wenn die Differenzen vor allem in den personenreichen Gruppen vorhanden sind.
 
Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Zum Skalenniveau: Mucho, du weißt ja gar nicht, wie meine Skala aussieht... Aber ganz offensichtlich bist du sehr, sehr konservativ, was Methodik angeht, und ich finde es gut diese Sichtweise zu hören und sie ins Bewusstsein zu kriegen, auch wenn ich mir im Endeffekt relativ wenig davon annehme.
Es ist eine viel-verwendete Likert-Skala, die üblicherweise als intervallskaliert behandelt wird, und ich gehe da ebenfalls nach Perfiat: Falls die Daten das Skalenniveau in Wirklichkeit nicht hätten, würde ich mit großer Wahrscheinlichkeit keine - oder weniger deutliche - Ergebnisse kriegen.

Warum meine Kategorien in den Durchschnitts-Variablen ungleichmäßig besetzt sind, habe ich ja schon erläutert: Sie berechnen sich aus 4 anderen Variablen. Wer dort keine Varianz erzeugt hat (was durchaus begründbar ist, weil die Varianten mitunter sehr ähnlich waren), kriegt im Durchschnitt einen runden Wert. Wenn jemand zweimal den einen Wert und zweimal einen danebenliegenden Wert abgegeben hat, kriegt im Durchschnitt einen runden Wert. Wer genau 1x einen anderen nebenliegenden Wert angekreuzt hat, kriegt einen krummen. (Größere Varianz als einen direkt nebenliegenden Wert sind aufgrund der Ähnlichkeit der Bilder sehr selten.) Damit ist die "Chance" auf einen runden Wert viel höher als auf einen krummen. Folglich die ungleiche Besetzung.

Um wieder aufs Skalenniveau zurückzukommen und Mucho doch irgendwo Recht zu geben ;): Aufgrund der diskreten Bewertungskategorien ist eigentlich die Durchschnittsbildung schon unzulässig. Aber was ist die Alternative? Scores aufsummieren und dann Ränge bilden? Das kommt von den Gruppenbesetzungen aufs Selbe hinaus wie die Durchschnittsbildung.

Ich sträube mich hier gegen nicht-parametrische Tests, weil das Bild mit den ganz unterschiedlich besetzen Gruppen nunmal das verfälschte ist.


Amadeus: Tests auf Mittelwerte sind empfindlich bei der Schiefe, Tests auf Varianzen bei der Kurtosis? Hast du dafür eine Quelle? Ich hör das zum ersten Mal!
 
Mitglied seit
06.12.2000
Beiträge
5.486
Reaktionen
0
Original geschrieben von Smarty
Exzess/Kurtosis von ~-0.4.
Na was denn nun? Die Normalverteilung hat die Kurtosis β2 = 3 und entsprechend den Exzess γ2 = 0.

Das von Völkerballtier angesprochene wundert mich auch. Evtl liegt die Bimodalität einfach an der Einteilung der Achse. Mach mal nen Häufigkeitsdiagramm, wo es nur in 1/4-Schritten geht. Hier scheint es 5 oder 6 Schritte pro ganzer Zahl zu geben - da fallen evtl zwei Schritte in eine Kategorie und die nächste ist leer. Dann sieht das ganze auch schon viel besser aus, denke ich. K-S-Test kannste vergessen und bei dem N kann man bei nicht allzu dramatischen Abweichungen von der NV echt drauf scheißen (Robustheit). Transformieren würde ich da auf keinen Fall, maximal ne Logarithmierung könnte evtl zu ner besseren NV führen. Für die Tests ist das dann auch ok, zu interpretieren ist es dann natürlich schwer(er).

Über die Skalierung würde ich mir jetzt auch keine großen Gedanken machen. Ja, natürlich ist das eigtl ne Ordinalskala, aber das ist eh ne akademische Diskussion. Alternativ gehen die nichtparametrischen Tests natürlich aber immer.

Zur letzten Frage siehe Amadeus. Die ungleichen Zellenhäufigkeiten werden ja in der QS-Berechnung berücksichtigt. Im Endeffekt ist es eh nur die Frage, wie groß die Konfidenzintervalle der Gruppenwerte sind.

Im übrigen solltest du bei der Auswertung bei solchen Fallzahlen davon absehen, zu viel Augenmerk auf die Signifikanzen zu legen und lieber mit Effektstärken operieren. Die Aussage "Aufgrund des großen N werden meine Unterschiede aber eh (auch die ganz kleinen) alle signifikant, ein konservatives Reagieren ist also nicht das Problem." lässt darauf schließen, dass du das als Nonplusultra ansiehst. Gerade bei solchen Fragestellungen (und exploratorischem Vorgehen) wären Effektstärken aber sicherlich sinnvoller zu interpretieren - Stichwort praktische Relevanz.
 

Amad3us

Guest
Amadeus: Tests auf Mittelwerte sind empfindlich bei der Schiefe, Tests auf Varianzen bei der Kurtosis? Hast du dafür eine Quelle? Ich hör das zum ersten Mal!

Mardia/Kent/Bibby: Multivariate Analysis S.148ff

Genaueres findest du auch in der Publikationsliste von Mardia:

http://www.maths.leeds.ac.uk/~sta6kvm/publications.html

(vor allem: 39);21);22)


Genau genommen bezieht er sich auf Hotellings T- Test (Du kannst aber den üblichen t-Test als Spezialfall davon ansehen).


Alternativ könntest du dir ja mal für deine Werte von Schiefe/Kurtosis Daten simulieren und dich von der Robustheit selber überzeugen (oder vom Gegenteil)
 
Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Die Aussage "Aufgrund des großen N werden meine Unterschiede aber eh (auch die ganz kleinen) alle signifikant, ein konservatives Reagieren ist also nicht das Problem." lässt darauf schließen, dass du das als Nonplusultra ansiehst.
Äh, nein, ganz im Gegenteil. Das ist die eine Stelle, an der ich mein großes N etwas verfluche, weil die Effektstärken bei meiner Thematik eigentlich alle sehr klein sind.

Amadeus: Thx. Mal schauen, ob wir davon was in der Bib vorrätig haben.
 
Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Weil ich an bestimmten Stellen alle Farbvarianten in einen Topf schmeißen will, die Farben sich aber in den dort interessierenden AVs auf 0,1%-Niveau signifikant unterscheiden -- der Mittelwertsunterschied beträgt ~2%, also quasi nichts.
 

voelkerballtier

Coverage, Staff, Coding
Mitglied seit
01.12.2003
Beiträge
1.603
Reaktionen
0
Re: Re: Normalverteilt? (...und Folgen für Mittelwertsvergleiche)

Original geschrieben von BigBadWolf

Das von Völkerballtier angesprochene wundert mich auch. Evtl liegt die Bimodalität einfach an der Einteilung der Achse. Mach mal nen Häufigkeitsdiagramm, wo es nur in 1/4-Schritten geht. Hier scheint es 5 oder 6 Schritte pro ganzer Zahl zu geben - da fallen evtl zwei Schritte in eine Kategorie und die nächste ist leer. Dann sieht das ganze auch schon viel besser aus, denke ich. ...
Genau das habe ich mir auch gerade gedacht - ist es denn überhaupt möglich, zB eine 3.1 zu erzeugen? falls nicht macht dein binning überhaupt keinen sinn.
Und wenn man kurz nachdenkt, merkt man, dass deine Mittelwerte in 0.25-er Schritten abgestuft sind (weil sie aus 4 Einzelwertetn berechnet sind). Dein Häufigkeitsdiagramm sollte also auch diesem Binning folgen und insgesamt 20 Balken haben - für jeden möglichen Mittelwert einen.
Gut möglich, dass die hohen Werte bei den runden Zahlen erhalten bleiben, aber zumindest verschwinden die Löcher
 
Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Okay, wir haben alle nicht so wirklich gelesen. Ich habe schon 2x ausführlich erklärt, warum es 0,25er-Schritte gibt, und ihr fragt euch das immer noch.
Und ich habe mir die Grafiken nicht genau angeguckt, sonst hätte ich gesehen, dass da wirklich noch mehr Schritte als die 0,25er drin sind. Was daran liegt, dass nicht alle Items Pflichtitems waren und ich für die Durchschnittsberechnung auch solche Personen zugelassen habe, die nicht alle der 4 Items ausgefüllt haben. Somit gibt es auch 1/3-Schritte. Ich lass das Ganze später nochmal nur mit den vollständigen Daten durchlaufen (wobei mir da eine ganze Menge VPn flöten gehen) und gucke, ob sich großartig was ändert. Ich glaub's aber nicht.
 

voelkerballtier

Coverage, Staff, Coding
Mitglied seit
01.12.2003
Beiträge
1.603
Reaktionen
0
Original geschrieben von Smarty
Okay, wir haben alle nicht so wirklich gelesen. Ich habe schon 2x ausführlich erklärt, warum es 0,25er-Schritte gibt, und ihr fragt euch das immer noch.
Nein, wir fragen uns wie genau diese Grafik zustande kommt in der große Ausreißer (ok das hast du erklärt) und Löcher (hatest du bisher nicht erklärt). Aber ich glaub ich habs jetz verstanden: du zeigst einfach die Anzahl wie oft jeder einzelne Mittelwert vorkommt und dass es mehr als 4 sind kommt einfach daher, dass du auch unvollständige datensätze zulässt.
Naja sorry für die Verwirrung :)
 
Oben