- Mitglied seit
- 30.07.2000
- Beiträge
- 4.623
- Reaktionen
- 71
Tag,
zweiter Fred zu meiner DA. Wenn mir niemand ein nettes anderes Statistikforum empfiehlt, in dem fähige Leute unfähigen Menschen wie mir in verständlicher Sprache helfen, folgen wahrscheinlich auch noch ein paar![::]: ::]: ::]:](/forum/data/assets/smilies/pleased.gif)
Also, es geht um Ästhetikurteile. Eine Person ist einer von 8 möglichen Farben eines Bildes zugeordnet worden und hat dann zu insgesamt vier Varianten dieses Bildes (bei denen 2 andere Dimensionen als die Farbe variiert wurden) jeweils neun Fragen beantwortet, von denen 8 zu ein mehr oder weniger etabliertes Ästhetik-Instrument bilden, das in dieser Kurzversion in den bisherigen Studien immer noch akzeptable Gütekriterien aufwies.
Ich will ganz billig Mittelwertsunterschiede testen:
- Werden die ansonsten selben Bilder je nach Farbe unterschiedlich bewertet?
- Wird die letzte (neu(nt)e) Frage anders bewertet als die 8 Fragen des Ästhetik-Instruments?
- Unterscheiden sich die jeweils beiden Stufen von Dimension B und C in der Bewertung?
- Hat das Alter oder Geschlecht einen Einfluss auf die Bewertung?
- uswusf.
Dazu habe ich - je nach Fragestellung -, z.B. die Bewertungen aller 4 Bildvarianten pro Item in seinen mittleren Wert zusammengefasst (z.B. "alles in allem find ich das ästhetisch" waren die Urteile für Varianten A-D 3,3,4,5 -> zusammengefasster Wert = 15/4 = 3,75).
Und dann gibt es ja nunmal tolle Instrumente wie t-Tests, ein- und mehrfaktorielle ANOVAs, MANCOVAs,... Die Standardtests setzen aber alle drei Sachen voraus:
- Intervallskalierung der abhängigen Variablen (ist bei mir gegeben).
- Gleiche Varianzen zwischen den Gruppen (ist bei mir laut Levenetest auch überall eindeutig nicht verletzt)
- Normalverteilung der abhängigen Variablen.
Und da haben wir dann auch den Salat. Von wegen, ab einer Gruppengröße von 30 verlass ich mich auf die NV (wie sie auch in den bisherigen Studien zum Instrument auftraten)...
Kolmogorov-Smirnov fliegt mir bei den zusammengefassten Werten sowas von um die Ohren! Ein Blick in die Verteilungen zeigt auch, warum. Schiefe und Exzess sind jeweils im Rahmen, s.u.. Aber: Sehr viele Leute haben entweder gar keine Varianz zwischen den Varianten bei derselben Frage erzeugt oder anderweitig so geantwortet, dass sich im Durchschnitt ein ganzzahliger Wert ergibt. Die Zwischenwerte (x.25 - x.50 - x.75) sind deutlich seltener. Mal ein anschauliches Beispiel:
Die Skala geht von 1-5, ich war nur zu faul die Achse manuell anzugeben.
Links das "echte" Item, rechts habe ich schon ganz böse transformiert:
- 1 und 1,25 -> 1
- 1,5 bis 2,25 -> 2
- 2,5 bis 3,25 -> 3
usw.
So, um mal langsam zum Punkt zu kommen:
- Ist die Transformation zulässig?
- Dieses Item ist transformiert immer noch ziemlich schief und verschoben, aber wenigstens eingipflig. Die meisten anderen Items sehen noch besser aus.
- Der K-S-Test wird trotzdem noch fast überall mit einem p-Wert von <0,001 signifikant. Wenn ich mich recht erinnere, wird er das bei sehr großen Gruppengrößen aber auch ziemlich schnell?
Und zur praktischen Bedeutung:
- ANOVAs (und damit natürlich auch t-Tests) reagieren auf die Verletzung der NV-Voraussetzung ja relativ robust. Jedenfalls, solange die Verteilung nicht allzu breitgipflig oder zweigipflig ist, und solange die Varianzen homogen sind (was sie wie gesagt absolut sind). Aufgrund des großen N werden meine Unterschiede aber eh (auch die ganz kleinen) alle signifikant, ein konservatives Reagieren ist also nicht das Problem. Aber:
- Was ist zu breitgipflig? Gilt da Augenmaß, oder gibt's auch eine objektivere Größe?
- Ich habe bei den meisten Items eine Schiefe von -0.15 bis -0.3 und einen Exzess/Kurtosis von ~-0.4. Für sich genommen beides nicht so wild, aber in der Kombination? Sollte ich transformieren?
- Welche Items nehm ich für die Signifikanztests? Die umkodierten (die einen Rundungsfehler von locker mal ~0.1 bis 0.2 haben) oder die originalen?!
Und zu guter letzt eine Spezialfrage: Ich habe bei den Farben sehr unterschiedlich große Gruppengrößen (die Teilnehmer konnten ihre Lieblingsfarbe selbst wählen, und da gab es erwartungsgemäß Präferenzunterschiede). Ganz grob:
1x ~330
3x ~90
4x ~50
Wie beeinflusst das meine Mittelwertsvergleiche? Kriegen die Quadratsummen der Riesengruppe da nicht einen Mega-Einfluss? Wäre aber wohl auch nur ein Problem, wenn meine Varianzen zwischen den Gruppen unterschiedlich wären? Ich konnte dazu auf die Schnelle nichts Gescheites rausfinden.
So, jetzt ist es doch noch richtig spät geworden. Ich hoffe, ich hab nicht allzu viel geistigen Dünnpfiff losgelassen. Danke fürs Lesen!
zweiter Fred zu meiner DA. Wenn mir niemand ein nettes anderes Statistikforum empfiehlt, in dem fähige Leute unfähigen Menschen wie mir in verständlicher Sprache helfen, folgen wahrscheinlich auch noch ein paar
![::]: ::]: ::]:](/forum/data/assets/smilies/pleased.gif)
Also, es geht um Ästhetikurteile. Eine Person ist einer von 8 möglichen Farben eines Bildes zugeordnet worden und hat dann zu insgesamt vier Varianten dieses Bildes (bei denen 2 andere Dimensionen als die Farbe variiert wurden) jeweils neun Fragen beantwortet, von denen 8 zu ein mehr oder weniger etabliertes Ästhetik-Instrument bilden, das in dieser Kurzversion in den bisherigen Studien immer noch akzeptable Gütekriterien aufwies.
Ich will ganz billig Mittelwertsunterschiede testen:
- Werden die ansonsten selben Bilder je nach Farbe unterschiedlich bewertet?
- Wird die letzte (neu(nt)e) Frage anders bewertet als die 8 Fragen des Ästhetik-Instruments?
- Unterscheiden sich die jeweils beiden Stufen von Dimension B und C in der Bewertung?
- Hat das Alter oder Geschlecht einen Einfluss auf die Bewertung?
- uswusf.
Dazu habe ich - je nach Fragestellung -, z.B. die Bewertungen aller 4 Bildvarianten pro Item in seinen mittleren Wert zusammengefasst (z.B. "alles in allem find ich das ästhetisch" waren die Urteile für Varianten A-D 3,3,4,5 -> zusammengefasster Wert = 15/4 = 3,75).
Und dann gibt es ja nunmal tolle Instrumente wie t-Tests, ein- und mehrfaktorielle ANOVAs, MANCOVAs,... Die Standardtests setzen aber alle drei Sachen voraus:
- Intervallskalierung der abhängigen Variablen (ist bei mir gegeben).
- Gleiche Varianzen zwischen den Gruppen (ist bei mir laut Levenetest auch überall eindeutig nicht verletzt)
- Normalverteilung der abhängigen Variablen.
Und da haben wir dann auch den Salat. Von wegen, ab einer Gruppengröße von 30 verlass ich mich auf die NV (wie sie auch in den bisherigen Studien zum Instrument auftraten)...
Kolmogorov-Smirnov fliegt mir bei den zusammengefassten Werten sowas von um die Ohren! Ein Blick in die Verteilungen zeigt auch, warum. Schiefe und Exzess sind jeweils im Rahmen, s.u.. Aber: Sehr viele Leute haben entweder gar keine Varianz zwischen den Varianten bei derselben Frage erzeugt oder anderweitig so geantwortet, dass sich im Durchschnitt ein ganzzahliger Wert ergibt. Die Zwischenwerte (x.25 - x.50 - x.75) sind deutlich seltener. Mal ein anschauliches Beispiel:

Die Skala geht von 1-5, ich war nur zu faul die Achse manuell anzugeben.
Links das "echte" Item, rechts habe ich schon ganz böse transformiert:
- 1 und 1,25 -> 1
- 1,5 bis 2,25 -> 2
- 2,5 bis 3,25 -> 3
usw.
So, um mal langsam zum Punkt zu kommen:
- Ist die Transformation zulässig?
- Dieses Item ist transformiert immer noch ziemlich schief und verschoben, aber wenigstens eingipflig. Die meisten anderen Items sehen noch besser aus.
- Der K-S-Test wird trotzdem noch fast überall mit einem p-Wert von <0,001 signifikant. Wenn ich mich recht erinnere, wird er das bei sehr großen Gruppengrößen aber auch ziemlich schnell?
Und zur praktischen Bedeutung:
- ANOVAs (und damit natürlich auch t-Tests) reagieren auf die Verletzung der NV-Voraussetzung ja relativ robust. Jedenfalls, solange die Verteilung nicht allzu breitgipflig oder zweigipflig ist, und solange die Varianzen homogen sind (was sie wie gesagt absolut sind). Aufgrund des großen N werden meine Unterschiede aber eh (auch die ganz kleinen) alle signifikant, ein konservatives Reagieren ist also nicht das Problem. Aber:
- Was ist zu breitgipflig? Gilt da Augenmaß, oder gibt's auch eine objektivere Größe?
- Ich habe bei den meisten Items eine Schiefe von -0.15 bis -0.3 und einen Exzess/Kurtosis von ~-0.4. Für sich genommen beides nicht so wild, aber in der Kombination? Sollte ich transformieren?
- Welche Items nehm ich für die Signifikanztests? Die umkodierten (die einen Rundungsfehler von locker mal ~0.1 bis 0.2 haben) oder die originalen?!
Und zu guter letzt eine Spezialfrage: Ich habe bei den Farben sehr unterschiedlich große Gruppengrößen (die Teilnehmer konnten ihre Lieblingsfarbe selbst wählen, und da gab es erwartungsgemäß Präferenzunterschiede). Ganz grob:
1x ~330
3x ~90
4x ~50
Wie beeinflusst das meine Mittelwertsvergleiche? Kriegen die Quadratsummen der Riesengruppe da nicht einen Mega-Einfluss? Wäre aber wohl auch nur ein Problem, wenn meine Varianzen zwischen den Gruppen unterschiedlich wären? Ich konnte dazu auf die Schnelle nichts Gescheites rausfinden.
So, jetzt ist es doch noch richtig spät geworden. Ich hoffe, ich hab nicht allzu viel geistigen Dünnpfiff losgelassen. Danke fürs Lesen!