- Mitglied seit
- 30.07.2000
- Beiträge
- 4.623
- Reaktionen
- 71
Hi,
da bin ich ja mal gespannt, was für Statistik-Profis hier rumlaufen
Ich habe leider bei meiner Versuchsplanung nicht gut genug aufgepasst. Ich hatte nur irgendwie was im Hinterkopf von wegen "joa, Clusteranalyse kann mit ordinalen Daten ganz gut umgehen", war mir dessen ziemlich sicher und habe fast alle meine Items jetzt auf ordinalem Niveau.
Es geht um meine Diplomarbeit, und dort um den Teil, in dem ich untersuche, ob es verschiedene Internet-Nutzertypen gibt. Im Grunde habe ich rund 100 verschiedene Dinge, die man im Internet tun kann, die alle auf einer sechs(+1)-stufigen Skala beantwortet werden konnten:
- nie
- seltener als 1x im Monat
- ca. 1x im Monat
- mehrmals pro Monat
- mehrmals pro Woche
- (mehrmals) täglich
(+ kenne ich nicht)
Und jetzt sitz ich hier und sehe beim genauen Hinsehen, dass alle (mir einigermaßen bekannten) Varianten der Clusteranalyse nur intervallskalierte oder nominalskalierte Daten erwarten, aber so schön ordinale wie meine nicht. Bei der FA/PCA hab ich ja dasselbe Problem.
Was tun?!
- Skala dichotomisieren? Extremwerte nehmen? Bitte nicht!
- Beschließen, dass meine Skala doch eigentlich fast intervallskaliert ist?
- Kein IV-Niveau in der Theorie annehmen, aber trotzdem damit rechnen, weil eines der Verfahren sehr robust gegen die Verletzung der IV-Voraussetzung ist? (FA?!)
- Eine Spezialvariante eines Verfahrens finden, das doch mit ordinalem Niveau ganz gut zurechtkommt?
Um es ein bisschen schwieriger zu machen:
- Die Variablen haben eine sehr unterschiedliche Gruppengröße, weil speziellere Fragen nur diejenigen gekriegt haben, die die allgemeinen Fragen nicht mit "nie" angegeben haben. Die Größen variieren zwischen ~1200 und ~300 Probanden. Man könnte die fehlenden Werte allerdings auch als "nie" kodieren, da bei den Filterfragen eigentlich nur das Auflösungsniveau vergrößert wurde. (Z.B. grobe Frage: "Spielen Sie irgendwas online?" -> Filterfragen "Browsergames", "Flash-Games", ...)
- Ich würde am liebsten auch noch ein paar Items mit reinwerfen, die noch eine andere Skala und einen anderen Sinn haben (z.B. "Ich bin im Internet, weil a, b, c", Zustimmung/Ablehnung). Diese Daten kann ich den gefundenen Clustern/Faktoren/Komponenten aber notfalls auch posthoc deskriptiv zuordnen.
Bin für Vorschläge sehr dankbar!
da bin ich ja mal gespannt, was für Statistik-Profis hier rumlaufen

Ich habe leider bei meiner Versuchsplanung nicht gut genug aufgepasst. Ich hatte nur irgendwie was im Hinterkopf von wegen "joa, Clusteranalyse kann mit ordinalen Daten ganz gut umgehen", war mir dessen ziemlich sicher und habe fast alle meine Items jetzt auf ordinalem Niveau.
Es geht um meine Diplomarbeit, und dort um den Teil, in dem ich untersuche, ob es verschiedene Internet-Nutzertypen gibt. Im Grunde habe ich rund 100 verschiedene Dinge, die man im Internet tun kann, die alle auf einer sechs(+1)-stufigen Skala beantwortet werden konnten:
- nie
- seltener als 1x im Monat
- ca. 1x im Monat
- mehrmals pro Monat
- mehrmals pro Woche
- (mehrmals) täglich
(+ kenne ich nicht)
Und jetzt sitz ich hier und sehe beim genauen Hinsehen, dass alle (mir einigermaßen bekannten) Varianten der Clusteranalyse nur intervallskalierte oder nominalskalierte Daten erwarten, aber so schön ordinale wie meine nicht. Bei der FA/PCA hab ich ja dasselbe Problem.
Was tun?!
- Skala dichotomisieren? Extremwerte nehmen? Bitte nicht!
- Beschließen, dass meine Skala doch eigentlich fast intervallskaliert ist?
- Kein IV-Niveau in der Theorie annehmen, aber trotzdem damit rechnen, weil eines der Verfahren sehr robust gegen die Verletzung der IV-Voraussetzung ist? (FA?!)
- Eine Spezialvariante eines Verfahrens finden, das doch mit ordinalem Niveau ganz gut zurechtkommt?
Um es ein bisschen schwieriger zu machen:
- Die Variablen haben eine sehr unterschiedliche Gruppengröße, weil speziellere Fragen nur diejenigen gekriegt haben, die die allgemeinen Fragen nicht mit "nie" angegeben haben. Die Größen variieren zwischen ~1200 und ~300 Probanden. Man könnte die fehlenden Werte allerdings auch als "nie" kodieren, da bei den Filterfragen eigentlich nur das Auflösungsniveau vergrößert wurde. (Z.B. grobe Frage: "Spielen Sie irgendwas online?" -> Filterfragen "Browsergames", "Flash-Games", ...)
- Ich würde am liebsten auch noch ein paar Items mit reinwerfen, die noch eine andere Skala und einen anderen Sinn haben (z.B. "Ich bin im Internet, weil a, b, c", Zustimmung/Ablehnung). Diese Daten kann ich den gefundenen Clustern/Faktoren/Komponenten aber notfalls auch posthoc deskriptiv zuordnen.
Bin für Vorschläge sehr dankbar!