• Liebe User, bitte beachtet folgendes Thema: Was im Forum passiert, bleibt im Forum! Danke!
  • Hallo Gemeinde! Das Problem leidet zurzeit unter technischen Problemen. Wir sind da dran, aber das Zeitkontingent ist begrenzt. In der Zwischenzeit dürfte den meisten aufgefallen sein, dass das Erstellen von Posts funktioniert, auch wenn das Forum erstmal eine Fehlermeldung wirft. Um unseren Löschaufwand zu minimieren, bitten wir euch darum, nicht mehrmals auf 'Post Reply' zu klicken, da das zur Mehrfachposts führt. Grußworte.

Was nehmen: Clusteranalyse, FA, PCA,...?

Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Hi,
da bin ich ja mal gespannt, was für Statistik-Profis hier rumlaufen :)

Ich habe leider bei meiner Versuchsplanung nicht gut genug aufgepasst. Ich hatte nur irgendwie was im Hinterkopf von wegen "joa, Clusteranalyse kann mit ordinalen Daten ganz gut umgehen", war mir dessen ziemlich sicher und habe fast alle meine Items jetzt auf ordinalem Niveau.

Es geht um meine Diplomarbeit, und dort um den Teil, in dem ich untersuche, ob es verschiedene Internet-Nutzertypen gibt. Im Grunde habe ich rund 100 verschiedene Dinge, die man im Internet tun kann, die alle auf einer sechs(+1)-stufigen Skala beantwortet werden konnten:
- nie
- seltener als 1x im Monat
- ca. 1x im Monat
- mehrmals pro Monat
- mehrmals pro Woche
- (mehrmals) täglich
(+ kenne ich nicht)

Und jetzt sitz ich hier und sehe beim genauen Hinsehen, dass alle (mir einigermaßen bekannten) Varianten der Clusteranalyse nur intervallskalierte oder nominalskalierte Daten erwarten, aber so schön ordinale wie meine nicht. Bei der FA/PCA hab ich ja dasselbe Problem.

Was tun?!
- Skala dichotomisieren? Extremwerte nehmen? Bitte nicht!
- Beschließen, dass meine Skala doch eigentlich fast intervallskaliert ist?
- Kein IV-Niveau in der Theorie annehmen, aber trotzdem damit rechnen, weil eines der Verfahren sehr robust gegen die Verletzung der IV-Voraussetzung ist? (FA?!)
- Eine Spezialvariante eines Verfahrens finden, das doch mit ordinalem Niveau ganz gut zurechtkommt?


Um es ein bisschen schwieriger zu machen:
- Die Variablen haben eine sehr unterschiedliche Gruppengröße, weil speziellere Fragen nur diejenigen gekriegt haben, die die allgemeinen Fragen nicht mit "nie" angegeben haben. Die Größen variieren zwischen ~1200 und ~300 Probanden. Man könnte die fehlenden Werte allerdings auch als "nie" kodieren, da bei den Filterfragen eigentlich nur das Auflösungsniveau vergrößert wurde. (Z.B. grobe Frage: "Spielen Sie irgendwas online?" -> Filterfragen "Browsergames", "Flash-Games", ...)
- Ich würde am liebsten auch noch ein paar Items mit reinwerfen, die noch eine andere Skala und einen anderen Sinn haben (z.B. "Ich bin im Internet, weil a, b, c", Zustimmung/Ablehnung). Diese Daten kann ich den gefundenen Clustern/Faktoren/Komponenten aber notfalls auch posthoc deskriptiv zuordnen.


Bin für Vorschläge sehr dankbar!
 

Amad3us

Guest
Also mal unabhängig vom Verfahren was du wählst: Was ist eigentlich das Ziel?
- Items nach ähnlichen Inhalten gruppieren?
oder
- Personen nach ähnlichem Antwortmuster gruppieren?
oder
- Eindimensionale Skalen aus den Items erstellen?

Clusteranalyse ist ein deskriptives Verfahren. Du kannst es auch mit ordinalen Daten anwenden. Es kommt immer auf das gewählte Distanzmaß an. Wenn du also z.B. beabsichtigst Personen nach Antwortmuster zu gruppieren dann kannst du etwa die Distanz auf einem Item durch binäre Dummyvariablen messen:

als Beispiel: item hat ausprägung A B C (in ordinaler Reihenfolge)

Person 1 hat B angekreuzt
Person 2 hat C angekreuzt

Dann vergibst du binäre Dummyvariablen:

Person 1 : 1 1 0
Person 2: 1 1 1

Distanz: Jetzt kannst du denn für nominale Daten üblichen "Matching Koeffizienten" wählen.
Alternativ kannst du auch den Kategorien Scores zuweisen und mit diesen Scores Distanzmaße für intervallskalierte Daten verwenden.
Das sind die beiden Wege die mir innerhalb der Clusteranalyse für ordinale Daten bekannt sind. (Wie du ja selber schon erwähnt hast, ist man bei ordinalen Daten immer ein wenig dumm dran)


Zum Rest schreib ich später was muss jetzt leider weg.
 
Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Hi, und danke schonmal für die Antwort!

Also mal unabhängig vom Verfahren was du wählst: Was ist eigentlich das Ziel?
Ja, das hätte ich mal dazuschreiben können, hm? ;)

Grundsätzliches Ziel ist es, zu beschreiben ob es relativ trennscharfe Nutzungsszenarien gibt, die ausgeübt werden. Ob es also z.B. den typischen "Informationssucher", den typischen "Gamer", "Online-Social-Mensch" usw. gibt (wobei einige Nutzungen, wie z.B. das Email-Schreiben, offensichtlich bei mehreren Typen vorkommen). Mit der Gruppierung der Personen nach ähnlichen Antwortmustern geht aber natürlich eine Gruppierung ähnlicher Inhalte einher.
Gerade bei der Clusteranalyse gibt es ja die beiden verschiedenen Herangehensweisen (Gruppierung der Items vs. Personen), und ehrlich gesagt habe ich noch nicht wirklich verstanden, wo der große Unterschied dabei ist: Das eine bedingt doch in meinem Fall das andere?

Was du zu den Distanzmaßen geschrieben hast, zeigt mir, dass ich die wohl völlig falsch in Erinnerung habe. Bevor du da Romane schreibst, les ich mich lieber nochmal richtig ein (es ist eine Weile her, dass ich mich für die Abschlussprüfung mit Clusteranalysen beschäftigt habe, und auch da war's nur theoretisch, ich habe mich noch nie praktisch damit beschäftigt).
 
Mitglied seit
06.12.2000
Beiträge
5.486
Reaktionen
0
Original geschrieben von Smarty
Was tun?!
- Skala dichotomisieren? Extremwerte nehmen? Bitte nicht!
- Beschließen, dass meine Skala doch eigentlich fast intervallskaliert ist?
- Kein IV-Niveau in der Theorie annehmen, aber trotzdem damit rechnen, weil eines der Verfahren sehr robust gegen die Verletzung der IV-Voraussetzung ist? (FA?!)
- Eine Spezialvariante eines Verfahrens finden, das doch mit ordinalem Niveau ganz gut zurechtkommt?
1: eher schlecht
2: bei ner Likert-Skala kein Problem, hier sehr fragwürdig
4: siehe Amadeus Punkt - was willst du überhaupt?

Jetzt mal einfach blind drauf los fällt mir eine neckische Sache ein, die ich vor paar Monaten mal gelesen hab:
Nonlinear principal components analysis: Introduction and application.
Linting, Mariëlle; Meulman, Jacqueline J.; Groenen, Patrick J. F.; van der Koojj, Anita J.
Psychological Methods. Vol 12(3), Sep 2007, 336-358.
http://psycnet.apa.org/index.cfm?fa...-E298-15ED6D17C143&resultID=1&page=1&dbTab=pa

Simpler Artikel in PsychMeth, echt interessante Methode. Hab den Spaß zwar noch nicht ausprobiert, aber klang echt ganz nett, was man damit machen kann und ist wohl auch in den gängigen Statistik-Softwareproggis implementiert. Im Endeffekt geht das etwas in die Richtung von dem, was Amadeus geschrieben hat. Auch z.B. das mit den (nominalen) Markiervariablen war damit afair recht gut lösbar. Gleich die nächste Studie in dem Journal ist noch ne Bootstrap-Studie dazu, um sich das Verhalten mal anzugucken. Lesbar, leicht verständlich (mit Bsp) und zumindest mal ein Ansatz.

Ansonsten halt eben die Frage - was willst du überhaupt machen?

€: ok, das bringt dir dann bei deiner Fragestellung eher weniger - Clusteranalyse wäre da wohl eher das Mittel der Wahl.
 

Amad3us

Guest
Die Clusteranalyse kannst du verwenden um die Personen in homogene Gruppen einzuteilen. Du solltest dabei beachten, dass die Clusteranalyse dir eigentlich nur "Vorschläge" liefert. Das Ergebnis kann nämlich unter Umständen stark von dem verwendeten Distanzmaß und dem Linkageverfahren abhängen. Vielleicht bietet es sich dann an das ganze mehrmals mit unterschiedlichen Verfahren durchzurechnen. Dann siehst du auch welche Cluster stabil sind und welche nicht.

Ich nehme aber mal an, dass du ,wenn die Cluster erstmal stehen,
auch wissen willst, worin sich die Cluster denn unterscheiden bzw was sie charakterisiert. In dem Fall ist es dann unter Umständen günstig wenn du dir nicht die Verteilung von jedem einzelnen Item anguckn musst sondern Skalen zur Verfügung hast. Also vorher deine Items zu homogenen Gruppen zusammengefasst hast.

Wovon ich dir generell abraten würde (auch wenn viele Anwender das gerne machen!) ist eine Faktorenanalyse. Die sollte man bei so einem Itemformat eher nicht anwenden.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
8.558
Reaktionen
992
Website
lifehacker.com
das merkmal "wie häufig" mit ausprägungen
- nie
- seltener als 1x im Monat
- ca. 1x im Monat
- mehrmals pro Monat
- mehrmals pro Woche
- (mehrmals) täglich
(+ kenne ich nicht)

ist in deinem zusammenhang ordinal? hab mir deinen massigen text nun nicht durchgelesen, aber hört sich nominal an.


bei so ner umfrage doch ganz normal test auf homogenität von gruppen (bzw. falls du willkürlich über einen bestimmten zeitraum deine versuchspersonen ausgewählt hast und nicht von vornerein aus verschiedenengruppen gezogen hast: äquivalent dazu test auf unahängigkeit) via analyse von mehrdimensionalen kontingenztafeln bzw. deren log lineare modellierung?
lässt sich für den ordinalen fall auch verfeinern.
ist nun alles schon lange her, aber ist clusteranalyse // pca nicht ohnehin nur ein verfahren zur dimensionsreduktion multivariaterdaten (bzw. cluster= gruppenfindung)?
stellt also nur einen vorschritt zur eigentlichen analyse dar, indem es deine daten irgendwie zusammenfasst.
bedenke, daß dies jedoch nach mathematischen gesichtspunkten abläuft und nicht notwendigerweise damit auch nach sachlogischen.
bei selbsterstellten umfragen, wo du nen konkretes ziel vor augen hast ist es oftmals besser von diesen methoden ein wenig abstand zu halten und die daten sachlogisch zusammenzufassen.

dieser text ist trotz akkutem schlafmangel entstanden :)
 
Mitglied seit
06.12.2000
Beiträge
5.486
Reaktionen
0
Man merkt's ;)

Merkmal ist für mich schon ordinal (wenn man mal von kenne ich nicht als missing ausgeht).

Was du vorschlägst, bringt ja für seine Analyse nix. Er hat ja noch gar keine Gruppen, die er irgendwie vergleichen kann, sondern will diese Gruppen ja erst noch finden. Dafür ist die Clusteranalyse - wenn auch verschrien aufgrund ihrer exploratorischen, teilweise arbiträren Vorgehensweise und der von der Verwendung unterschiedlicher Distanzmetriken und Clusteranzahlen abhängigen Ergebnisse (dafür ja der von Amadeus angesprochene Test, welche Lösung sich als relativ robust und auch logisch nachvollziehbar/erklärbar herausstellt) - schon das Mittel der Wahl.

Allerdings finde ich halt die Anzahl der Variablen schon recht groß. Da wäre es evtl wirklich anzuraten, erstmal die Variablen zusammenzufassen.
 
Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Moin mal wieder,

ich musste den Part der Clusterei unterbrechen, weil ich erst noch in ein paar andere Daten genauer reinschauen wollte (dazu mach ich gleich noch nen Thread auf).
Zu Muchos Posting hat BBW imo eigentlich schon alles gesagt. "Kenne ich nicht" werde ich wohl als "nie" behandeln, weil es alles Sachen sind, die man benennen kann, wenn man sie tut ("Online telefonieren mit einem auf dem PC installierten Programm, z.B. Skype"). Ansonsten wüsste ich wirklich nicht, warum die Skala nicht ordinal sein sollte?!

Ich hab derweil aber ein paar Infos gefunden - am wichtigsten war mir da ein Artikel von Žiberna, Kejžar und Golob (wer auch immer die sind, aber sie scheinen's einigermaßen drauf zu haben), der ziemlich klar sagt, dass man ordinale Daten entweder in Ränge umkodieren oder direkt als intervallskalierte Daten behandeln soll, aber auf keinen Fall als nominale. In meinem speziellen Fall eher Ränge.
...Mein spezieller Fall: viele Kategorien für niedrige Werte und wenige Kategorien für hohe Werte, nämlich:
- nie: 0/365
- seltener als 1x/Monat: 1/365 bis 11/365
- ca. 1x/Monat: ~10/365 bis ~14/365
- mehrmals pro Monat: 24/365 bis ~100/365
- mehrmals pro Woche: 104/365 bis ~300/365
- (mehrmals) täglich: ~300/365 bis xtausend/365 (z.B. 100x täglich Emails checken)

So werd ich's dann wahrscheinlich auch machen. Wie genau die Umsetzung (Festlegung der Distanzen z.B.) aussieht, muss ich dann halt nochmal schauen.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
8.558
Reaktionen
992
Website
lifehacker.com
bei tageslicht wird alles klarer..hatte noch im hinterkopf, daß du deine versuchspersonen ohnehin schon in gruppen eingeteilt hast (soweit ich mich erinnere hast du ein paar 30-39 jährige gezielt gesucht)..für mich wäre dann eben die logische konsequenz gewesen eben diese gruppen auf unterschiedliches verhalten zu untersuchen:
in meinen gedankengang gehst du also schon mit der behauptung an die daten ran, daß die nutzung des internets von sagen wir geschlecht und/oder vorher festgelegten altersgruppen abhängt -
also keine explorative gruppierung der daten vorher stattfinden muß, höchstens um die anzahl der variablen eben zu verkleinern (wobei ich das wie gesagt eher sachlogisch machen würde..es lassen sich in fast jeder umfrage einzelne fragen in oberkategorien zusammenfassen).

was ich dann aber immernoch nicht im zusammenhang mit der fragestellung "gibt es unterschiedliche internet-nutzertypen" einsehen kann, ist, daß die antwörtmöglichkeit der kategoriellen variable "häufigkeit internet nutzung" ordinalskaliert sein soll.

es macht für mich bezüglich der fragestellung keinen sinn zu sagen, daß die merkmalsausprägung im sinne einer relationsordnung informationen tragen, also eine ausprägung "nie" geringer eingeschätzt wird als eine ausprägung mit "mehrmals täglich".

vielleicht kann mich mal jemand kurz darüber aufklären, warum denn hier im vorliegendem fall die daten überhaupt ordinalskaliert sein sollen...merci.
 
Mitglied seit
30.07.2000
Beiträge
4.623
Reaktionen
71
Jaja, Tageslicht um viertel nach eins in der Nacht :p

Das erste Thema kann ich schnell erklären: Ich wollte meine Probanden so nah wie möglich an der gesamten deutschen Onlinebevölkerung einladen. Da gibt's für Alter, Geschlecht und Bildungsstand recht repräsentative Daten dank ARD-ZDF-Onlinestudie (die Telefoninterviews gemacht haben). So wirklich repräsentativ ist natürlich utopisch: Ich habe wahrscheinlich einen Bias haben, dass ich überdurchschnittlich aktive Nutzer befragt habe, weil die eher etwas von solchen Umfragen mitkriegen, aber eine Unterrepräsentiertheit der am wenigsen aktiven Nutzer kann ich bei einer Onlinebefragung eh nicht vermeiden, und die drei obigen Variablen wollte ich dann wenigstens synchron haben.


Zum Thema Skala kapiere ich echt nicht, was du meinst: Kategorien sind in einer eindeutigen Reihenfolge ("mehrmals pro Monat" ist für einen einigermaßen klar denkenden Menschen eindeutig seltener als "mehrmals pro Woche", wenn man beide Kategorien direkt nebeneinander sieht; usw.), und jedes Verhalten kann ziemlich eindeutig einer der Kategorien zugeordnet werden. Etwas anderes fordert eine Ordinalskala meineswissens nicht.
 

FORYOUITERRA

TROLL
Mitglied seit
22.07.2002
Beiträge
8.558
Reaktionen
992
Website
lifehacker.com
für mich ist die einteilung der reihenfolge nach nutzungshäufigkeit in deinem zusammenhang nicht notwendigerweise erforderlich.
dein argument, daß
""mehrmals pro Monat" ist für einen einigermaßen klar denkenden Menschen eindeutig seltener als "mehrmals pro Woche", wenn man beide Kategorien direkt nebeneinander sieht; usw."

stimmt nicht notwendigerweise, wie ich dir an einem übertriebenen gegenbeispiel klar machen will:
im land nummericus gibts die städte 1, 2 und 3.
du kommst nun an und sagst "hey, stadt 1 ist für den klar denkenden mensch kleiner als stadt 2" das merkmal "stadt" muß ordinalskaliert sein.

nur weil eine kategorie nummerisch kleiner als eine andere ist, heißt es nicht notwendig, daß diese weniger bzw mehr als eine andere kategorie bedeutet. es hängt ein wenig von der fragestellung ab, welches skalenniveau die daten haben und ist nicht immer eindeutig (wenn auch deine codierung nach der tatsächlchen häufigkeit natürlich logisch erscheint)

wenn du jetzt irgendwie die gabe "möglichst schnell bei google etwas zu finden" anhand des mekrmals "nutzungshäufigkeit des internets" untersuchen möchtest, dann wäre auch für mich das merkmal mit deinen gelisteten kategorieren eindeutig ordinalskaliert, da in dem zusammenhang "nie" schlechter ist als "mehrmals pro woche", also zusätzliche informationen enthält.

zur reinen feststellung ob es unterschiedliche nutzungstypen im internet gibt spielt aber die häufigkeit im sinne einer rangordnung doch keine rolle? du zählst einfach nur ab wieviele leute in deine kategorieren fallen - für deine fragestellung, wie ich sie verstehe gibt es aber dieses "nie" ist schlechter als "mehrmals pro woche" nicht.

für euch scheint die sache ja anders auszusehen, bin jedoch immernoch nicht überzeugt.
...wobei du deine fragestellung und deine daten ohnehin besser als ich kennst und deshalb sicherlich recht hast mit der ordinalskalierung.
 
Mitglied seit
06.12.2000
Beiträge
5.486
Reaktionen
0
Original geschrieben von MuchO_[SpeeD]
für mich ist die einteilung der reihenfolge nach nutzungshäufigkeit in deinem zusammenhang nicht notwendigerweise erforderlich.
Aber möglich, oder nicht?

Immerhin verschenkst du ja Informationen, wenn du die nicht ordinal behandelst. Mehrmals pro Woche ist eben nicht nur eine Kategorie wie Nie oder Täglich sondern liegt halt genau zwischen den beiden Kategorien Mehrmals im Monat und Täglich. Und die Nutzungshäufigkeit kann man sicherlich bei der Typisierung berücksichtigen. Ansonsten könnte man ja auch einfach Nie und Kenne ich nicht zusammenfassen vs alle anderen oder so.
 
Oben